最高降幅达99%!小米官宣MiMo‑V2.5大模型API永久降价

问AI · 小米技术优化如何实现API成本大幅下降?
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)

过去一年,大模型行业最激烈的竞争,一直围绕“谁更聪明”。

但现在,战场开始迅速转向另一个方向:谁更便宜。

5 月 27 日,小米旗下 AI 大模型平台 MiMo 团队宣布,对 MiMo-V2.5 系列 API 进行永久性降价,最高降幅达到 99%不再区分上下文窗口长度。与此同时,小米还重做了 Token Plan 计费体系,在同样价格下,开发者可用 Token 数量直接提升 5~8 倍。  

随后,雷军转发了这则消息,并欢迎更多开发者接入。

图片

消息一出,引起海内外开发者热议。有的人觉得,这已经不是普通意义上的“优惠活动”了,而更像是一次公开的“掀桌子”,将大模型的调用成本压到一个前所未有的水平。但也有人在体验后觉得,降价背后,自己的额度消耗速度明显比以前快了很多。

争议之下,这则公告究竟给众多开发者带来了怎样的变化?


图片

小米 MiMO-V2.5 大模型到底降了多少?

按照小米技术团队的官方公告显示,此次对 MiMO-V2.5 系列的调价共计涉及三个维度:

1. MiMo-V2.5 系列 API 永久降价

本次调价覆盖 MiMo‑V2.5、MiMo‑V2.5‑Pro 两大主力版本,最大的变化之一,是不再按 ≤256k、256k‑1M 等分段定价,现在统一价格了,开发者成本可预测、账单更清晰。

以 MiMo-V2.5-Pro 为例:

  • 缓存命中价格统一降到每百万 Token 仅 0.025 元人民币

  • 输出价格降到每百万 Token 6 元人民币

相比旧价格,部分场景下降约 86%~99%。  

而普通版 MiMo-V2.5 的价格甚至更低。

这意味着,过去只有头部公司才敢大规模跑的 AI Agent、自动编码、长上下文推理,现在中小团队也开始“跑得起”了。

此外,MiMo‑V2.5‑TTS 依然限时免费,MiMo‑V2‑Pro、MiMo‑V2‑Omni 维持原价,旧版 Token 套餐逐步下线,官方引导开发者迁移至更具性价比的 V2.5 系列。

图片

根据公告,这次调价已于北京时间 5 月 27 日 0 时正式在全球同步生效。

2. Token 套餐计费体系优化

同时,小米对计费体系优化也进行了调整,Token Plan 全面升级,同等付费额度用量提升 5–8 倍。

图片

3. 所有在用 Token 套餐额度全额重置

小米还宣布,存量用户 Credits 自动重置适配新规则。无论当前套餐剩余用量多少,所有处于有效期内、已订购 Token 套餐的用户(包含参与小米此前百万亿 Token 创作者激励计划获赠套餐的用户,以及享有 Apache 软件基金会专属福利的用户),其账户积分额度均将于北京时间 5 月 27 日 0 时全额重置,并统一按照新计费规则执行。

此外,小米也预告,针对 Token 套餐已到期的历史付费用户,其也准备了专属惊喜福利,相关内容将在一周内公布。


免费领 100 小时云算力|CSDN 读者专属福利
适配 DeepSeek、Qwen 等主流大模型
咖啡领取链接:https://s.csdn.cn/4nPsOp


图片

以前最贵的,不是模型,而是“上下文”

很多普通用户可能会觉得:“大模型调用不就是按字数收费吗?”

但实际上,真正让开发者头疼的,往往不是一次提问,而是“反复喂上下文”。

尤其在 AI 编程、Agent 工作流里,一个任务往往会:

  • 不断读取历史上下文

  • 重复调用工具

  • 反复传输长代码

  • 多轮循环推理

而这些上下文数据,很多平台都会重复收费。

于是你会发现:AI 本身不贵,真正贵的是“记忆”。

此前就有开发者在 Reddit 抱怨,小米早期 MiMo 的计费方式非常容易让人误判成本:“你以为只在为新增 Token 付费,但实际上整个上下文都在重复计费。”  

图片

尤其在 CLI Agent 场景下,成本会指数级上升。

而这次随着小米的调整,也解决了这个问题。


图片

为什么现在可以降价了,以前价格却那么高?

如果只看价格,很多人会觉得:“小米也开始卷 AI 价格战了。”

但如果把最近几个月的动作放在一起看,会发现 MiMo 的目标可能远不止“便宜”。

比如就在上个月,小米宣布开源 Xiaomi MiMo-V2.5 系列模型,采用 MIT 协议,支持商用部署和二次训练,无需额外授权。

这意味着:开发者不仅能调用 API,还能直接拿模型自己部署。

此外,小米还推出了 Orbit 100T Token 激励计划。官方称,该计划上线不到一个月,100T Token 已被开发者全部领完。

这一系列动作背后,其实已经非常明显:小米真正想争夺的,并不是单一模型市场,而是未来 AI Agent 生态的开发入口。

对于这次永久性降价,小米技术团队也专门解释了原因。

核心关键词只有一个:推理系统的持续优化。

目前,小米已全面搭载基于 SGLang 高缓存架构的滑动窗口注意力机制(SWA)。

按照官方说法:

这一技术将 KV 缓存数据在显存、内存、固态硬盘等多级存储之间的传输量,降至优化前的约七分之一;可缓存的 Token 数量提升至原先近 5 倍,大幅提高缓存命中率与整体推理效率。

与此同时,小米技术团队还对专家并行方案、输入长度分桶策略等进行优化,进一步提升集群的输入吞吐能力。在保障服务质量的前提下,持续压低单 Token 的服务成本。


图片

价格战背后:AI 行业开始进入“水电煤时代”

事实上,小米并不是第一个主动掀起价格战的厂商。

更早之前,DeepSeek 已经率先开始下压价格。

5 月 22 日,DeepSeek 宣布:DeepSeek-V4-Pro API 在结束限时优惠后,正式价格仍将维持在原定价的四分之一。

图片

DeepSeek-V4-Pro 的定价和 MiMo‑V2.5‑Pro 相同。

这背后,其实反映出整个行业正在发生的一场深层变化。

过去两年,AI 公司比拼的是参数规模、Benchmark 排名、推理能力、多模态能力。

但现在,一个越来越明显的趋势开始出现:模型能力差距,正在慢慢缩小。

于是竞争开始转向:谁能把 Token 做成“基础设施”。  

这种变化,其实和当年云计算市场很像。

最开始大家比性能。后来大家比价格。

最后算力开始变成水、电、煤一样的基础资源。

而谁能把成本打下来,谁就能获得最大规模的开发者生态。