实测MiniMax M3:多模态跑长程,比 M2.7 强太多

问AI · M3的边看边干能力将如何影响AI代理发展?

昨天,MiniMax M3发布了,支持原生多模态1M上下文,而且Agent能力很强。

说实话我已经等它好几天了,之前MiniMax 的工程负责人 Skyler Miao 在 X 上放了一张预告图,非常技术内核,提前预告了一种新的注意力机制——MiniMax Sparse Attention,很明显就是M3的预告。

图片

技术是模型的底子,但是体感不够直接。

直到昨天模型上线,我们上手实测了一轮,我才对这次M3的升级有了真实体感。

这次升级,最直接的就两点:原生多模态,和扛长程任务的能力。

正好,我手头压着几件一直没空干的活,都卡在这个点上。由简到难,我们一起看下M3的完成度。

一句话需求,从视频素材直接出一个官网

第一个活儿,是个朋友想给业务做个门户网站。

图片

听起来不复杂,但麻烦就在于素材有多种格式,视频、图片、文档、代码等等。

图片

我把几乎原样的需求发给接了 M3 的 Claude Code,就一句话:

请参考这些素材,做一个企业官网的展示页。素材包里的文字、图片、视频都要放在合适的位置,不要遗漏,整体风格一致可用,好看点。你可以在服务器上找个合适的位置部署展示。

它自己读素材包,图片、视频、文案都过了一遍,然后写代码、本地测试、部署。中间服务器环境脏,部署完一直404,它也自己查到是路径错了,改完重新传上去,没用我插手。

发完需求 16 分钟,它丢给我一个网址:做好了,你看看。

把素材准备好,需求讲清楚,M3接的就是一条交付链。中间不用反复掰扯了。

Agent的视频理解也有救了,到PPT生成一气呵成

之前收藏过一个 PPT 教程——做成和电影开场一样的文字遮罩效果。

视频就一分钟,节奏挺快。如果照着做的话,得反复观看,一步步照着操作步骤走,才能学会。

(视频源:抖音:阿欣说个P(PPT定制)2022年10月视频)

这次我把视频直接发给 MiniMax Code(M3 的专属 Agent),只说了一句:看下这个视频,教我。

M3直接把视频里的动作扒成了文字版SOP,细节它也抠出来了,比如合并形状,得先选矩形、再按住 Shift选文字,顺序反了效果就不对。

我基本都在用Claude Code,能做,但是细节不如这个。

更进一步,既然教程都能直接看懂了。我心想,如果继续让它往下做呢?M3自己有写代码、调工具、操作文件的能力诶!

于是,我接着下达指令:用这个素材包直接帮我做好ppt。

图片

接着就是一连串猛虎操作——安装依赖、寻找素材、按照视频教程一步步点击....

半小时后,M3交付了——

看得出来,对最初的动效复刻得非常完美,只是我的素材耽误了孩子。。

为了积累这种做优质PPT的能力,我索性就让M3把它做成skill,下次接着用。

我想,这也是它原生多模态比较自然的落点,快速把一个没有文档、节奏又快的视频,变成可以继续执行的生产资料。

到这一步,我基本有了实感,M3可以直接理解图片、视频,吃下很长的资料和代码去跑任务。

连轴 12 小时复现一篇 ICLR 获奖论文

前面两件事其实都是小活儿,真正的厉害的是连轴干十几个小时、中途没人接手的长活。

这事最近国产模型其实都在拼。通义的 Qwen3.7-Max 、智谱 GLM、Kimi,动辄一口气调两三百次工具不用人管。

但是这些长活几乎大同小异,就是死磕代码+工具,是文本的处理。

M3这次让我出乎意料的是,多模态+长程,也就是带着眼睛跑长任务。

官方自己做了个更狠的测试:把一篇ICLR 2025 Outstanding Paper Award 论文 _Learning Dynamics of LLM Finetuning_丢给M3,让它从零复现。

M3 自己跑了接近 12 小时,中途产出 18 次提交、23 张实验图,把核心实验跑通了。它对上了 SFT阶段的概率变化趋势,观测到了 DPO 里的挤压效应(squeezing),还验证了原论文给的缓解办法。

图片

这活儿光会写代码不够。论文里的曲线、公式得看懂,十几个小时的论文、代码、日志得一直装在上下文记忆里。

这恰好就是M3的多模态、长上下文、coding能力叠起来的地方。

多模态负责看懂图表、公式和视频;百万上下文负责把论文、代码、日志和中间判断一起装进脑子;Coding/Agentic 负责持续推进任务,不断修错、提交、验证。

M3背后是一种新的注意力机制

M3能做到1M的上下文,开头那张预告图,就是核心。

一种新的注意力机制——MiniMax Sparse Attention。

图片

先说清楚,长为什么贵?

传统注意力里,模型每读一个字,都要回头跟前面所有字挨个比一遍。读到第 100万个字,就要比 100 万次。字数翻倍,计算量翻四倍。

如果能处理地起超长上下文,业界其实就两条路:少看,或者压缩。

少看:不跟所有字硬比,先筛一遍,只挑相关的算。怎么看怎么挑,各家不同。比如

  • Kimi 的 MoBA:把上下文切成一块块,每读一句先判断该翻哪几块,只翻那几块,按块挑。
  • DeepSeek 的 DSA:更细,不按块。用一个轻量索引器在全文里直接挑相关的 token,按token挑,但是索引器估的不一定准。

压缩是另一条:不挑,先把内容压成摘要再读。DeepSeek 的 MLA 走这条路。

M3 的 MSA也是走少看这个路径。但官方说它的块分得更精准,对真正相关的内容覆盖得更全。

落到实际差别上,100万字的上下文里,M3每个字的计算量只有上一代的 1/20,prefilling(预填充)阶段加速超过9倍,decoding(解码)阶段超过15倍。

图片

只有把“长”的成本压下来,才敢拿100万上下文当默认能力用。

另一半是原生多模态,关键在原生。

M3不是先训好一个文字模型再外挂看图模块,而是从训练第一步起,文字、图文、视频就混在一起喂。

它的预训练规模做到了100T量级。

当然,但原生多模态是有代价的。从头就拿图文、视频一起训,成本必然比只喂文字的纯文本模型高一截,跑起来吃的内存和算力也更多。

用上能直接看图看视频,1M上下文的模型,按道理推理成本是要翻好几倍。但是这次一同更新的还有Token Plan——MiniMax直接卖给个人用户的套餐。

官方给出了三档套餐,我大概算了算,里面第二档MAX套餐竞争力非常强,不到120元的价格,用量大致相当于Claude MAX 100刀套餐的两倍。和GLM Coding Plan这类国产订阅相比,虽然计费口径不同,M3给出的中档价格依旧是最划算的

和GLM Coding Plan这类国产订阅相比,虽然计费口径不同,但社区反馈在中高强度 Agent 使用场景里,M3给出的中档价格更低、额度更宽。

综合算下来,最推荐的就是中档套餐,非常划算。

当然,说到底便宜只是前提,M3这次真正让我意外的地方,是多模态长程任务的完成度。

Agent赛道卷长程卷了大半年,一直以来的指标是看谁不间断干的久。

M3反倒开启了另一个方向,不只是干得久,是能边看边干。