小米 MiMo-V2.5 API 永久降价:缓存命中低至 0.02 元每百万 tokens

小米 MiMo-V2.5 系列 API 自 2026 年 5 月 27 日 0 点起永久降价,最高降幅 99%,并取消按上下文窗口长度区分价格。Token Plan 也同步升级,有效套餐用户的已用 Credits 被全量重置。

小米 MiMo-V2.5 API 降价与 Token Plan 成本示意图
小米 MiMo MiMo-V2.5 API 定价 Token Plan 大模型成本

小米把 MiMo-V2.5 系列 API 价格体系重做了一遍。

2026 年 5 月 27 日 0 点起,mimo-v2.5-promimo-v2.5 API 执行新的永久价格,最高降幅达到 99%。这次调价还取消了过去按上下文窗口长度区分价格的做法,开发者不再需要在短上下文和长上下文价格之间来回测算。

对小团队来说,这不是一个只适合放进“模型降价”新闻流里的数字。它会影响三类具体决策:长上下文 Agent 是否还能用高性能模型跑、代码工具订阅套餐是否值得重算,以及多模型路由里 MiMo-V2.5 是否该进入候选池。

新价格落在什么位置

小米官方价格页按每 100 万 tokens 计价。调价后,MiMo-V2.5 系列国内 API 价格如下:

模型

输入缓存命中

输入缓存未命中

输出

mimo-v2.5-pro

0.025 元 / 1M tokens

3.00 元 / 1M tokens

6.00 元 / 1M tokens

mimo-v2.5

0.02 元 / 1M tokens

1.00 元 / 1M tokens

2.00 元 / 1M tokens

海外价格也同步调整。mimo-v2.5-pro 为 0.0036 美元、0.435 美元、0.87 美元每百万 tokens;mimo-v2.5 为 0.0028 美元、0.14 美元、0.28 美元每百万 tokens,分别对应缓存命中输入、未命中输入和输出。

价格结构里最有变化的是缓存命中项。mimo-v2.5-pro 的输入缓存命中价降到 0.025 元每百万 tokens,mimo-v2.5 降到 0.02 元每百万 tokens。对于会反复带入同一段仓库上下文、产品文档、系统提示词或历史会话的 Agent 工作流,缓存命中价会比单次聊天价格更接近真实成本杠杆。

小米同时说明,MiMo-V2 系列价格保持不变,相关模型将逐步下线,建议开发者迁移到新模型;mimo-v2.5-ttsmimo-v2.5-tts-voiceclonemimo-v2.5-tts-voicedesignmimo-v2-tts 仍为限时免费。

Token Plan 也同步升级

这次调整不只改按量 API。小米还升级了 Token Plan 订阅体系,并把有效期内用户的已用 Credits 全量重置。

Token Plan 面向 AI 编程场景,官方文档列出的月付套餐为:

套餐

月付价格

月固定 Credits

Lite

39 元 / 6 美元

4.1B

Standard

99 元 / 16 美元

11B

Pro

329 元 / 50 美元

38B

Max

659 元 / 100 美元

82B

年付套餐对应 49.2B、132B、456B、984B Credits。官方说法是,MiMo-V2.5 系列在 Token Plan 中的可用量提升至原来的 5-8 倍。

Credits 的扣减规则也被重新写清楚:

模型

输入缓存命中

输入缓存未命中

输出

MiMo-V2.5-Pro

2.5 Credits / token

300 Credits / token

600 Credits / token

MiMo-V2.5

2 Credits / token

100 Credits / token

200 Credits / token

MiMo-V2-Pro

140 Credits / token

700 Credits / token

2100 Credits / token

MiMo-V2-Omni

56 Credits / token

280 Credits / token

1400 Credits / token

这里有一个容易被忽略的限制:Token Plan 是给 AI 编程工具使用的订阅资源包,官方文档明确写到,它不能用于明显非 Coding 场景的自动化脚本或自定义应用后端。如果你是在做 SaaS、内容流水线、客服系统或内部业务应用,按量 API 仍然是更稳妥的成本测算口径。

旧用户得到一次额度重置

所有已订阅 Token Plan 且仍在有效期内的用户,已用 Credits 会在北京时间 2026 年 5 月 27 日 0 点全量重置,套餐有效期不变。这个范围包括通过 MiMo Orbit 100T Token 激励计划获得 Token Plan 的用户,也包括 Apache 软件基金会专属福利用户。

小米还提到,Token Plan 已过期的历史付费用户会在未来一周得到新的安排,但具体内容尚未公布。这个部分暂时不能提前解读成新的价格或额度优惠。

另一个时间点也值得记录:MiMo Orbit 100T Token 激励计划从 2026 年 4 月 28 日启动,到 2026 年 5 月 26 日 16:08,100T tokens 已全部发放完毕并提前结束。Apache 软件基金会成员专属福利活动仍长期有效。

降价背后的技术解释

小米把这次调价归因于推理系统优化,而不是单纯的市场促销。

官方公告提到,MiMo 团队基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),把 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降到优化前的近七分之一,并把可缓存 token 数量提升到优化前的近五倍。这会直接影响缓存命中率和推理效率。

团队还优化了专家并行方案、输入长度分桶策略等,以提高集群输入吞吐能力。换成开发者视角,这些优化最终反映在两件事上:长输入不再被价格表单独惩罚,缓存命中的价值被放大。

这也是为什么本轮价格调整对 Agent 和代码工具更敏感。普通聊天场景可能只感受到输出价下降;而代码仓库分析、多轮任务规划、长文档问答、RAG 工作流会反复携带相似上下文,能不能稳定吃到缓存,决定实际账单是否接近价格表上的低位。

对小团队最实际的影响

第一,长上下文功能可以重新进成本表。过去很多团队在做代码智能体、项目级知识库问答和多轮分析时,会把高性能模型放到最后兜底。MiMo-V2.5-Pro 调价后,可以重新测试它在规划、审查、复杂判断环节的性价比。

第二,缓存策略变成产品能力的一部分。便宜的缓存命中价只有在请求前缀足够稳定时才有意义。系统提示词、项目背景、工具说明、知识库检索片段如果每轮都大幅波动,实际成本会更接近未命中输入价。

第三,Token Plan 适合拿来重测编程工具,不适合直接当成应用后端预算。对于使用 OpenCode、OpenClaw、Claude Code 等工具的开发者,套餐额度提升会很明显;但面向用户的自定义应用仍需要按照普通 API Key 的按量价格核算。

可以先做一个小范围测试,而不是马上迁移全部工作流:

  1. 选出 2-3 个高价值长上下文任务,例如仓库级代码审查、需求拆解、文档问答或复杂内容改写。
  2. 分别记录 mimo-v2.5mimo-v2.5-pro 与当前主力模型的质量、延迟、缓存命中率和输出长度。
  3. 把输入缓存命中、输入未命中和输出分开计费,不要只看平均每百万 tokens。
  4. 给 Agent 设置最大轮数、最大输出和失败重试上限。
  5. 只把质量差异足以覆盖切换成本的环节迁到新模型。

仍然需要谨慎的部分

“最高降幅 99%”主要来自缓存命中输入价格的变化,不能简单理解成所有请求都会便宜 99%。如果工作流缓存命中率低、输出很长,实际降幅会小很多。

Token Plan 的 Credits 也不能直接等同于 tokens。不同模型、缓存状态和输出 token 对 Credits 的消耗比例不同,尤其是 mimo-v2.5-pro 的未命中输入和输出消耗远高于缓存命中输入。买套餐前,最好先用自己的真实任务跑一轮账单样本。

还有一类信息暂时不适合写进决策:部分媒体稿和社区讨论提到模型榜单、团队背景、同业价格战和用户实测,但这些内容要么不是本次调价的必要事实,要么没有在官方文档里直接给出可复核口径。对开发者而言,现在最该验证的是自己的任务质量、缓存命中率和单位成本,而不是先接受一个泛化的“价格战结论”。

这次 MiMo-V2.5 调价的实际意义,是把一个高性能开源模型系列的 API 成本压到了可以认真测试的区间。小团队不必急着替换现有模型,但应该把长上下文、代码 Agent 和高价值分析任务重新拿出来算一遍。