昨天,MiniMax M3发布了,支持原生多模态、1M上下文,而且Agent能力很强。
说实话我已经等它好几天了,之前MiniMax 的工程负责人 Skyler Miao 在 X 上放了一张预告图,非常技术内核,提前预告了一种新的注意力机制——MiniMax Sparse Attention,很明显就是M3的预告。
技术是模型的底子,但是体感不够直接。
直到昨天模型上线,我们上手实测了一轮,我才对这次M3的升级有了真实体感。
这次升级,最直接的就两点:原生多模态,和扛长程任务的能力。
正好,我手头压着几件一直没空干的活,都卡在这个点上。由简到难,我们一起看下M3的完成度。
◈一句话需求,从视频素材直接出一个官网
第一个活儿,是个朋友想给业务做个门户网站。
听起来不复杂,但麻烦就在于素材有多种格式,视频、图片、文档、代码等等。
我把几乎原样的需求发给接了 M3 的 Claude Code,就一句话:
请参考这些素材,做一个企业官网的展示页。素材包里的文字、图片、视频都要放在合适的位置,不要遗漏,整体风格一致可用,好看点。你可以在服务器上找个合适的位置部署展示。
它自己读素材包,图片、视频、文案都过了一遍,然后写代码、本地测试、部署。中间服务器环境脏,部署完一直404,它也自己查到是路径错了,改完重新传上去,没用我插手。
发完需求 16 分钟,它丢给我一个网址:做好了,你看看。
把素材准备好,需求讲清楚,M3接的就是一条交付链。中间不用反复掰扯了。
◈Agent的视频理解也有救了,到PPT生成一气呵成
之前收藏过一个 PPT 教程——做成和电影开场一样的文字遮罩效果。
视频就一分钟,节奏挺快。如果照着做的话,得反复观看,一步步照着操作步骤走,才能学会。
(视频源:抖音:阿欣说个P(PPT定制)2022年10月视频)
这次我把视频直接发给 MiniMax Code(M3 的专属 Agent),只说了一句:看下这个视频,教我。
M3直接把视频里的动作扒成了文字版SOP,细节它也抠出来了,比如合并形状,得先选矩形、再按住 Shift选文字,顺序反了效果就不对。
我基本都在用Claude Code,能做,但是细节不如这个。
更进一步,既然教程都能直接看懂了。我心想,如果继续让它往下做呢?M3自己有写代码、调工具、操作文件的能力诶!
于是,我接着下达指令:用这个素材包直接帮我做好ppt。
接着就是一连串猛虎操作——安装依赖、寻找素材、按照视频教程一步步点击....
半小时后,M3交付了——
看得出来,对最初的动效复刻得非常完美,只是我的素材耽误了孩子。。
为了积累这种做优质PPT的能力,我索性就让M3把它做成skill,下次接着用。
我想,这也是它原生多模态比较自然的落点,快速把一个没有文档、节奏又快的视频,变成可以继续执行的生产资料。
到这一步,我基本有了实感,M3可以直接理解图片、视频,吃下很长的资料和代码去跑任务。
◈连轴 12 小时复现一篇 ICLR 获奖论文
前面两件事其实都是小活儿,真正的厉害的是连轴干十几个小时、中途没人接手的长活。
这事最近国产模型其实都在拼。通义的 Qwen3.7-Max 、智谱 GLM、Kimi,动辄一口气调两三百次工具不用人管。
但是这些长活几乎大同小异,就是死磕代码+工具,是文本的处理。
M3这次让我出乎意料的是,多模态+长程,也就是带着眼睛跑长任务。
官方自己做了个更狠的测试:把一篇ICLR 2025 Outstanding Paper Award 论文 _Learning Dynamics of LLM Finetuning_丢给M3,让它从零复现。
M3 自己跑了接近 12 小时,中途产出 18 次提交、23 张实验图,把核心实验跑通了。它对上了 SFT阶段的概率变化趋势,观测到了 DPO 里的挤压效应(squeezing),还验证了原论文给的缓解办法。
这活儿光会写代码不够。论文里的曲线、公式得看懂,十几个小时的论文、代码、日志得一直装在上下文记忆里。
这恰好就是M3的多模态、长上下文、coding能力叠起来的地方。
多模态负责看懂图表、公式和视频;百万上下文负责把论文、代码、日志和中间判断一起装进脑子;Coding/Agentic 负责持续推进任务,不断修错、提交、验证。
◈M3背后是一种新的注意力机制
M3能做到1M的上下文,开头那张预告图,就是核心。
一种新的注意力机制——MiniMax Sparse Attention。
先说清楚,长为什么贵?
传统注意力里,模型每读一个字,都要回头跟前面所有字挨个比一遍。读到第 100万个字,就要比 100 万次。字数翻倍,计算量翻四倍。
如果能处理地起超长上下文,业界其实就两条路:少看,或者压缩。
少看:不跟所有字硬比,先筛一遍,只挑相关的算。怎么看怎么挑,各家不同。比如
Kimi 的 MoBA:把上下文切成一块块,每读一句先判断该翻哪几块,只翻那几块,按块挑。 DeepSeek 的 DSA:更细,不按块。用一个轻量索引器在全文里直接挑相关的 token,按token挑,但是索引器估的不一定准。
压缩是另一条:不挑,先把内容压成摘要再读。DeepSeek 的 MLA 走这条路。
M3 的 MSA也是走少看这个路径。但官方说它的块分得更精准,对真正相关的内容覆盖得更全。
落到实际差别上,100万字的上下文里,M3每个字的计算量只有上一代的 1/20,prefilling(预填充)阶段加速超过9倍,decoding(解码)阶段超过15倍。
只有把“长”的成本压下来,才敢拿100万上下文当默认能力用。
另一半是原生多模态,关键在原生。
M3不是先训好一个文字模型再外挂看图模块,而是从训练第一步起,文字、图文、视频就混在一起喂。
它的预训练规模做到了100T量级。
当然,但原生多模态是有代价的。从头就拿图文、视频一起训,成本必然比只喂文字的纯文本模型高一截,跑起来吃的内存和算力也更多。
用上能直接看图看视频,1M上下文的模型,按道理推理成本是要翻好几倍。但是这次一同更新的还有Token Plan——MiniMax直接卖给个人用户的套餐。
官方给出了三档套餐,我大概算了算,里面第二档MAX套餐竞争力非常强,不到120元的价格,用量大致相当于Claude MAX 100刀套餐的两倍。和GLM Coding Plan这类国产订阅相比,虽然计费口径不同,M3给出的中档价格依旧是最划算的。
和GLM Coding Plan这类国产订阅相比,虽然计费口径不同,但社区反馈在中高强度 Agent 使用场景里,M3给出的中档价格更低、额度更宽。
综合算下来,最推荐的就是中档套餐,非常划算。
当然,说到底便宜只是前提,M3这次真正让我意外的地方,是多模态长程任务的完成度。
Agent赛道卷长程卷了大半年,一直以来的指标是看谁不间断干的久。
M3反倒开启了另一个方向,不只是干得久,是能边看边干。