过去一年,大模型行业最激烈的竞争,一直围绕“谁更聪明”。
但现在,战场开始迅速转向另一个方向:谁更便宜。
5 月 27 日,小米旗下 AI 大模型平台 MiMo 团队宣布,对 MiMo-V2.5 系列 API 进行永久性降价,最高降幅达到 99%,不再区分上下文窗口长度。与此同时,小米还重做了 Token Plan 计费体系,在同样价格下,开发者可用 Token 数量直接提升 5~8 倍。
随后,雷军转发了这则消息,并欢迎更多开发者接入。
消息一出,引起海内外开发者热议。有的人觉得,这已经不是普通意义上的“优惠活动”了,而更像是一次公开的“掀桌子”,将大模型的调用成本压到一个前所未有的水平。但也有人在体验后觉得,降价背后,自己的额度消耗速度明显比以前快了很多。
争议之下,这则公告究竟给众多开发者带来了怎样的变化?
小米 MiMO-V2.5 大模型到底降了多少?
按照小米技术团队的官方公告显示,此次对 MiMO-V2.5 系列的调价共计涉及三个维度:
1. MiMo-V2.5 系列 API 永久降价
本次调价覆盖 MiMo‑V2.5、MiMo‑V2.5‑Pro 两大主力版本,最大的变化之一,是不再按 ≤256k、256k‑1M 等分段定价,现在统一价格了,开发者成本可预测、账单更清晰。
以 MiMo-V2.5-Pro 为例:
缓存命中价格统一降到每百万 Token 仅 0.025 元人民币
输出价格降到每百万 Token 6 元人民币
相比旧价格,部分场景下降约 86%~99%。
而普通版 MiMo-V2.5 的价格甚至更低。
这意味着,过去只有头部公司才敢大规模跑的 AI Agent、自动编码、长上下文推理,现在中小团队也开始“跑得起”了。
此外,MiMo‑V2.5‑TTS 依然限时免费,MiMo‑V2‑Pro、MiMo‑V2‑Omni 维持原价,旧版 Token 套餐逐步下线,官方引导开发者迁移至更具性价比的 V2.5 系列。
根据公告,这次调价已于北京时间 5 月 27 日 0 时正式在全球同步生效。
2. Token 套餐计费体系优化
同时,小米对计费体系优化也进行了调整,Token Plan 全面升级,同等付费额度用量提升 5–8 倍。
3. 所有在用 Token 套餐额度全额重置
小米还宣布,存量用户 Credits 自动重置适配新规则。无论当前套餐剩余用量多少,所有处于有效期内、已订购 Token 套餐的用户(包含参与小米此前百万亿 Token 创作者激励计划获赠套餐的用户,以及享有 Apache 软件基金会专属福利的用户),其账户积分额度均将于北京时间 5 月 27 日 0 时全额重置,并统一按照新计费规则执行。
此外,小米也预告,针对 Token 套餐已到期的历史付费用户,其也准备了专属惊喜福利,相关内容将在一周内公布。
以前最贵的,不是模型,而是“上下文”
很多普通用户可能会觉得:“大模型调用不就是按字数收费吗?”
但实际上,真正让开发者头疼的,往往不是一次提问,而是“反复喂上下文”。
尤其在 AI 编程、Agent 工作流里,一个任务往往会:
不断读取历史上下文
重复调用工具
反复传输长代码
多轮循环推理
而这些上下文数据,很多平台都会重复收费。
于是你会发现:AI 本身不贵,真正贵的是“记忆”。
此前就有开发者在 Reddit 抱怨,小米早期 MiMo 的计费方式非常容易让人误判成本:“你以为只在为新增 Token 付费,但实际上整个上下文都在重复计费。”
尤其在 CLI Agent 场景下,成本会指数级上升。
而这次随着小米的调整,也解决了这个问题。
为什么现在可以降价了,以前价格却那么高?
如果只看价格,很多人会觉得:“小米也开始卷 AI 价格战了。”
但如果把最近几个月的动作放在一起看,会发现 MiMo 的目标可能远不止“便宜”。
比如就在上个月,小米宣布开源 Xiaomi MiMo-V2.5 系列模型,采用 MIT 协议,支持商用部署和二次训练,无需额外授权。
这意味着:开发者不仅能调用 API,还能直接拿模型自己部署。
此外,小米还推出了 Orbit 100T Token 激励计划。官方称,该计划上线不到一个月,100T Token 已被开发者全部领完。
这一系列动作背后,其实已经非常明显:小米真正想争夺的,并不是单一模型市场,而是未来 AI Agent 生态的开发入口。
对于这次永久性降价,小米技术团队也专门解释了原因。
核心关键词只有一个:推理系统的持续优化。
目前,小米已全面搭载基于 SGLang 高缓存架构的滑动窗口注意力机制(SWA)。
按照官方说法:
这一技术将 KV 缓存数据在显存、内存、固态硬盘等多级存储之间的传输量,降至优化前的约七分之一;可缓存的 Token 数量提升至原先近 5 倍,大幅提高缓存命中率与整体推理效率。
与此同时,小米技术团队还对专家并行方案、输入长度分桶策略等进行优化,进一步提升集群的输入吞吐能力。在保障服务质量的前提下,持续压低单 Token 的服务成本。
价格战背后:AI 行业开始进入“水电煤时代”
事实上,小米并不是第一个主动掀起价格战的厂商。
更早之前,DeepSeek 已经率先开始下压价格。
5 月 22 日,DeepSeek 宣布:DeepSeek-V4-Pro API 在结束限时优惠后,正式价格仍将维持在原定价的四分之一。
DeepSeek-V4-Pro 的定价和 MiMo‑V2.5‑Pro 相同。
这背后,其实反映出整个行业正在发生的一场深层变化。
过去两年,AI 公司比拼的是参数规模、Benchmark 排名、推理能力、多模态能力。
但现在,一个越来越明显的趋势开始出现:模型能力差距,正在慢慢缩小。
于是竞争开始转向:谁能把 Token 做成“基础设施”。
这种变化,其实和当年云计算市场很像。
最开始大家比性能。后来大家比价格。
最后算力开始变成水、电、煤一样的基础资源。
而谁能把成本打下来,谁就能获得最大规模的开发者生态。