从 MiMo-V2-Pro 到 Omni、TTS,小米这次把 Agent 时代的牌摊开了

问AI · 小米的全栈AI布局如何重塑其在Agent时代的竞争力?
上周,一款名为Hunter Alpha的神秘大模型正式发布。该模型自上线伊始便展现出卓越性能,首周调用量即达到0.666万亿Token,在全球大模型应用排名中位列第七,引发了科技业界对其研发主体的广泛关注。最新数据显示,截至本周,Hunter Alpha已连续多日蝉联日活跃度排行榜首位。
图片


之前就有很多人猜测,这个模型从tokenizer的分布上就可以看出,不是deepseek,不是glm,而是小米的模型MiMo。其中Huter Alpha 就是 Xiaomi MiMo-V2-Pro,而Healer Alpha则是小米最新的全模态基座模型 MiMo-V2-Omni
我们直接看一下它在Artificial Analysis的分数,直接来到了49分,在全球大模型排名排在了第7名,仅仅落后于Gemini、GPT、Claude、GLM、MiniMax。
图片


MiMo-V2-Pro 是“大脑”,Omni 是“感知+执行”,TTS 是“表达+交互”。
三者合起来,已经不是单纯的大模型发布,而是一套面向 Agent 时代的全栈能力组合。小米官方也把这轮发布直接定义为“面向 Agent 时代的 full-stack model family”。

模型的能力

我们再来看看各自模型的效果。
MiMo-V2-Pro 拥有了更大、更强的模型基座。
  • 万亿参数,高效架构:总参数量突破 1T(激活参数 42B),较前代 MiMo-V2-Flash 扩大约 3 倍。沿用前代 MiMo-V2-Flash 的创新 Hybrid Attention 机制,混合比例从 5:1 进一步提升至 7:1,在参数量大幅增长的同时依然维持了较高推理效率,并支持 1M 超长上下文。轻量 MTP (Multi Token Prediction) 层实现了高效的生成速度。

图片


  • 从 Chat 到 Agent:通过后训练阶段在更广泛的 Agent 任务场景进行 Scaling,模型能力已不再局限于“回答问题”或是“生成精美 Demo”,而是“完成任务”。我们致力于将其深度集成至生产力场景,使其成为驱动系统运转的“大脑”,持续交付具有真实世界影响力的结果。

  • 超越榜单的实际体验:在各个衡量模型重要能力的基准测评中,MiMo-V2-Pro 均表现优异,Coding Agent、通用 Agent 和 Tool Use 与 Claude 4.5 Sonnet、GPT5.2、Gemini 3.0 Pro 处于同一梯队,展现了其领先的智能水平。我们坚持以“实际体感”为导向进行训练优化,始终关注模型在应用场景中的落地表现。

图片


小米官方把这个Pro模型定义为为Agent而生的模型。在 OpenClaw 标准评测榜单 PinchBenchClawEval 上,MiMo-V2-Pro 效果处于全球顶尖。同时,凭借 1M 的超长上下文窗口,MiMo-V2-Pro 能够从容支撑高强度的真实 Claw 复杂应用流。在ClawEval的榜单上排名第3。
图片


在小米内部工程师的深度评测中,MiMo-V2-Pro 体感已接近 Claude Opus 4.6,并展现出高阶的代码智能:拥有更出色的系统设计与任务规划能力、更优雅的代码风格,以及更高效直接的问题解决路径。在 Hunter Alpha 测试阶段,调用量前几的 APP 多为编程专用工具,这印证了 MiMo-V2-Pro 在真实研发场景下的高可用性与高可靠性。
图片


而另一个模型Xiaomi MiMo-V2-Omni,是从底层构建了融合文本、视觉、语音的全模态基座。
视觉理解方面,MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力,超越 Claude Opus 4.6,逼近 Gemini 3 等顶尖闭源模型水平。
音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro,是当前最强的音频理解基座模型之一。
视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。通过创新的视频预训练,模型具备强大的情境感知与未来推理能力。
在与真实数字环境交互的评测基准上,MiMo-V2-Omni 表现优异,比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势:感知越准确,行动越有效
图片


与此同时,MiMo-V2-Omni 在纯文本智能体任务上也保持了高度的竞争力。
图片


MiMo-V2-Omni 的Agentic 能力也不错,结合 OpenClaw 框架,MiMo-V2-Omni 可以像真人一样操控浏览器,帮你处理事情。官方给了一个用它来“挑手机、砍价、下单”的例子:

模型初步体验

Q1:总结内容,生成知识卡片网页
总结这个网页(https://www.qbitai.com/2025/11/349957.html   ),生成一个好看,精致的知识卡片网页内容
从整体视觉风格上看,黑橙主色搭配科技渐变,风格现代;图标统一为圆角矢量形,保持了一定的柔和感。而且层次比较清晰
图片
图片


Q2:用SVG画一个思维导图,来介绍一下Xiaomi MiMo-V2-Pro有什么特点
整体算是比较美观,把该有的特点都给写出来
图片


Q3:3D地球绘画
使用Three.js和JavaScript构建一个网页,创建一个基于数组的 3D 世界,展示我去过的地方。点击 3D 地球上的标记将触发缩放动画效果,并打开带有照片的详细旅行信息。
可以点击不同的地点进行旋转,但是没有地图的信息,有点不太行
图片


Q4:开发一个“微旅程”网站,每天推荐一张世界小众角落的照片+一段故事。
一下子就能够给我把网站给整出来了。而且也把一些关于地方的故事也展示出来
图片


Q5:用 Three.js 实现一款3D战斗机对战游戏,在城市上方飞行,可以用触屏或者键盘操控。
图片


虽然把飞机给渲染出来了,但是城市的建筑之类的没有画出来。

写在最后

我觉得这次发布背后最值得关注的一件事,小米终于把自己在 AI 时代的位置讲明白了。
过去很多人对小米做 AI 的印象,可能还停留在“系统里接个模型”“手机里做点助手功能”“跟风做入口”。但这次不一样。
这次它拿出来的是文本、多模态、语音三条基座能力,而且都围绕 Agent 时代来组织叙事。它想表达的是:自己不只是要做一个聊天机器人,也不只是要把别人模型接进硬件,而是想做一套从模型到底层交互、再到终端场景的完整 AI 栈。
意味着它未来的核心竞争力,可能不再只是“硬件性价比”或者“生态连接能力”,而会多出一个新维度:
它能不能把 AI 直接做成系统能力,并用终端规模把它放大。
这和很多纯 AI 公司不一样。
纯模型公司擅长的是把模型做强;但小米这种公司一旦把模型、系统、终端、场景打通,它的优势会来自“最后一公里”的产品化。AI 时代,最后真正决定胜负的,很可能是谁能把模型变成亿级用户每天都在用的默认体验。