从 MiMo-V2-Pro 到 Omni、TTS，小米这次把 Agent 时代的牌摊开了

算法一只狗

2026-03-20 08:33发布于广东科技领域创作者

问AI · 小米的全栈AI布局如何重塑其在Agent时代的竞争力？

上周，一款名为Hunter Alpha的神秘大模型正式发布。该模型自上线伊始便展现出卓越性能，首周调用量即达到0.666万亿Token，在全球大模型应用排名中位列第七，引发了科技业界对其研发主体的广泛关注。最新数据显示，截至本周，Hunter Alpha已连续多日蝉联日活跃度排行榜首位。

之前就有很多人猜测，这个模型从tokenizer的分布上就可以看出，不是deepseek，不是glm，而是小米的模型MiMo。其中Huter Alpha 就是 Xiaomi MiMo-V2-Pro，而Healer Alpha是则是小米最新的全模态基座模型 MiMo-V2-Omni。

我们直接看一下它在Artificial Analysis的分数，直接来到了49分，在全球大模型排名排在了第7名，仅仅落后于Gemini、GPT、Claude、GLM、MiniMax。

MiMo-V2-Pro 是“大脑”，Omni 是“感知+执行”，TTS 是“表达+交互”。

三者合起来，已经不是单纯的大模型发布，而是一套面向 Agent 时代的全栈能力组合。小米官方也把这轮发布直接定义为“面向 Agent 时代的 full-stack model family”。

模型的能力

我们再来看看各自模型的效果。

MiMo-V2-Pro 拥有了更大、更强的模型基座。

万亿参数，高效架构：总参数量突破 1T（激活参数 42B），较前代 MiMo-V2-Flash 扩大约 3 倍。沿用前代 MiMo-V2-Flash 的创新 Hybrid Attention 机制，混合比例从 5:1 进一步提升至 7:1，在参数量大幅增长的同时依然维持了较高推理效率，并支持 1M 超长上下文。轻量 MTP (Multi Token Prediction) 层实现了高效的生成速度。

从 Chat 到 Agent：通过后训练阶段在更广泛的 Agent 任务场景进行 Scaling，模型能力已不再局限于“回答问题”或是“生成精美 Demo”，而是“完成任务”。我们致力于将其深度集成至生产力场景，使其成为驱动系统运转的“大脑”，持续交付具有真实世界影响力的结果。

超越榜单的实际体验：在各个衡量模型重要能力的基准测评中，MiMo-V2-Pro 均表现优异，Coding Agent、通用 Agent 和 Tool Use 与 Claude 4.5 Sonnet、GPT5.2、Gemini 3.0 Pro 处于同一梯队，展现了其领先的智能水平。我们坚持以“实际体感”为导向进行训练优化，始终关注模型在应用场景中的落地表现。

小米官方把这个Pro模型定义为为Agent而生的模型。在 OpenClaw 标准评测榜单 PinchBench、ClawEval 上，MiMo-V2-Pro 效果处于全球顶尖。同时，凭借 1M 的超长上下文窗口，MiMo-V2-Pro 能够从容支撑高强度的真实 Claw 复杂应用流。在ClawEval的榜单上排名第3。

在小米内部工程师的深度评测中，MiMo-V2-Pro 体感已接近 Claude Opus 4.6，并展现出高阶的代码智能：拥有更出色的系统设计与任务规划能力、更优雅的代码风格，以及更高效直接的问题解决路径。在 Hunter Alpha 测试阶段，调用量前几的 APP 多为编程专用工具，这印证了 MiMo-V2-Pro 在真实研发场景下的高可用性与高可靠性。

而另一个模型Xiaomi MiMo-V2-Omni，是从底层构建了融合文本、视觉、语音的全模态基座。

视觉理解方面，MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力，超越 Claude Opus 4.6，逼近 Gemini 3 等顶尖闭源模型水平。

音频理解方面，支持从环境声分类、多说话人分离、音频-视觉联合推理，到超过 10 小时连续长音频的深度理解。综合表现超越 Gemini 3 Pro，是当前最强的音频理解基座模型之一。

视频理解方面，支持原生音视频联合输入，实现真正的多模态视频理解。通过创新的视频预训练，模型具备强大的情境感知与未来推理能力。

在与真实数字环境交互的评测基准上，MiMo-V2-Omni 表现优异，比肩 Gemini 3 Pro。前沿的感知能力与原生训练的行动能力形成了复合优势：感知越准确，行动越有效

与此同时，MiMo-V2-Omni 在纯文本智能体任务上也保持了高度的竞争力。

MiMo-V2-Omni 的Agentic 能力也不错，结合 OpenClaw 框架，MiMo-V2-Omni 可以像真人一样操控浏览器，帮你处理事情。官方给了一个用它来“挑手机、砍价、下单”的例子：

模型初步体验

Q1：总结内容，生成知识卡片网页

总结这个网页（https://www.qbitai.com/2025/11/349957.html ），生成一个好看，精致的知识卡片网页内容

从整体视觉风格上看，黑橙主色搭配科技渐变，风格现代；图标统一为圆角矢量形，保持了一定的柔和感。而且层次比较清晰

Q2：用SVG画一个思维导图，来介绍一下Xiaomi MiMo-V2-Pro有什么特点

整体算是比较美观，把该有的特点都给写出来

Q3：3D地球绘画

使用Three.js和JavaScript构建一个网页，创建一个基于数组的 3D 世界，展示我去过的地方。点击 3D 地球上的标记将触发缩放动画效果，并打开带有照片的详细旅行信息。

可以点击不同的地点进行旋转，但是没有地图的信息，有点不太行

Q4：开发一个“微旅程”网站，每天推荐一张世界小众角落的照片+一段故事。

一下子就能够给我把网站给整出来了。而且也把一些关于地方的故事也展示出来

Q5：用 Three.js 实现一款3D战斗机对战游戏，在城市上方飞行，可以用触屏或者键盘操控。

虽然把飞机给渲染出来了，但是城市的建筑之类的没有画出来。

写在最后

我觉得这次发布背后最值得关注的一件事，小米终于把自己在 AI 时代的位置讲明白了。

过去很多人对小米做 AI 的印象，可能还停留在“系统里接个模型”“手机里做点助手功能”“跟风做入口”。但这次不一样。

这次它拿出来的是文本、多模态、语音三条基座能力，而且都围绕 Agent 时代来组织叙事。它想表达的是：自己不只是要做一个聊天机器人，也不只是要把别人模型接进硬件，而是想做一套从模型到底层交互、再到终端场景的完整 AI 栈。

意味着它未来的核心竞争力，可能不再只是“硬件性价比”或者“生态连接能力”，而会多出一个新维度：

它能不能把 AI 直接做成系统能力，并用终端规模把它放大。

这和很多纯 AI 公司不一样。

纯模型公司擅长的是把模型做强；但小米这种公司一旦把模型、系统、终端、场景打通，它的优势会来自“最后一公里”的产品化。AI 时代，最后真正决定胜负的，很可能是谁能把模型变成亿级用户每天都在用的默认体验。