2026/05/27模型动态解读高影响

小米 MiMo-V2.5 API 永久降价：缓存命中低至 0.02 元每百万 tokens

小米 MiMo-V2.5 系列 API 自 2026 年 5 月 27 日 0 点起永久降价，最高降幅 99%，并取消按上下文窗口长度区分价格。Token Plan 也同步升级，有效套餐用户的已用 Credits 被全量重置。

小米把 MiMo-V2.5 系列 API 价格体系重做了一遍。

2026 年 5 月 27 日 0 点起，mimo-v2.5-pro 和 mimo-v2.5 API 执行新的永久价格，最高降幅达到 99%。这次调价还取消了过去按上下文窗口长度区分价格的做法，开发者不再需要在短上下文和长上下文价格之间来回测算。

对小团队来说，这不是一个只适合放进“模型降价”新闻流里的数字。它会影响三类具体决策：长上下文 Agent 是否还能用高性能模型跑、代码工具订阅套餐是否值得重算，以及多模型路由里 MiMo-V2.5 是否该进入候选池。

新价格落在什么位置

小米官方价格页按每 100 万 tokens 计价。调价后，MiMo-V2.5 系列国内 API 价格如下：

模型	输入缓存命中	输入缓存未命中	输出
`mimo-v2.5-pro`	0.025 元 / 1M tokens	3.00 元 / 1M tokens	6.00 元 / 1M tokens
`mimo-v2.5`	0.02 元 / 1M tokens	1.00 元 / 1M tokens	2.00 元 / 1M tokens

海外价格也同步调整。mimo-v2.5-pro 为 0.0036 美元、0.435 美元、0.87 美元每百万 tokens；mimo-v2.5 为 0.0028 美元、0.14 美元、0.28 美元每百万 tokens，分别对应缓存命中输入、未命中输入和输出。

价格结构里最有变化的是缓存命中项。mimo-v2.5-pro 的输入缓存命中价降到 0.025 元每百万 tokens，mimo-v2.5 降到 0.02 元每百万 tokens。对于会反复带入同一段仓库上下文、产品文档、系统提示词或历史会话的 Agent 工作流，缓存命中价会比单次聊天价格更接近真实成本杠杆。

小米同时说明，MiMo-V2 系列价格保持不变，相关模型将逐步下线，建议开发者迁移到新模型；mimo-v2.5-tts、mimo-v2.5-tts-voiceclone、mimo-v2.5-tts-voicedesign 和 mimo-v2-tts 仍为限时免费。

Token Plan 也同步升级

这次调整不只改按量 API。小米还升级了 Token Plan 订阅体系，并把有效期内用户的已用 Credits 全量重置。

Token Plan 面向 AI 编程场景，官方文档列出的月付套餐为：

套餐	月付价格	月固定 Credits
Lite	39 元 / 6 美元	4.1B
Standard	99 元 / 16 美元	11B
Pro	329 元 / 50 美元	38B
Max	659 元 / 100 美元	82B

年付套餐对应 49.2B、132B、456B、984B Credits。官方说法是，MiMo-V2.5 系列在 Token Plan 中的可用量提升至原来的 5-8 倍。

Credits 的扣减规则也被重新写清楚：

模型	输入缓存命中	输入缓存未命中	输出
MiMo-V2.5-Pro	2.5 Credits / token	300 Credits / token	600 Credits / token
MiMo-V2.5	2 Credits / token	100 Credits / token	200 Credits / token
MiMo-V2-Pro	140 Credits / token	700 Credits / token	2100 Credits / token
MiMo-V2-Omni	56 Credits / token	280 Credits / token	1400 Credits / token

这里有一个容易被忽略的限制：Token Plan 是给 AI 编程工具使用的订阅资源包，官方文档明确写到，它不能用于明显非 Coding 场景的自动化脚本或自定义应用后端。如果你是在做 SaaS、内容流水线、客服系统或内部业务应用，按量 API 仍然是更稳妥的成本测算口径。

旧用户得到一次额度重置

所有已订阅 Token Plan 且仍在有效期内的用户，已用 Credits 会在北京时间 2026 年 5 月 27 日 0 点全量重置，套餐有效期不变。这个范围包括通过 MiMo Orbit 100T Token 激励计划获得 Token Plan 的用户，也包括 Apache 软件基金会专属福利用户。

小米还提到，Token Plan 已过期的历史付费用户会在未来一周得到新的安排，但具体内容尚未公布。这个部分暂时不能提前解读成新的价格或额度优惠。

另一个时间点也值得记录：MiMo Orbit 100T Token 激励计划从 2026 年 4 月 28 日启动，到 2026 年 5 月 26 日 16:08，100T tokens 已全部发放完毕并提前结束。Apache 软件基金会成员专属福利活动仍长期有效。

降价背后的技术解释

小米把这次调价归因于推理系统优化，而不是单纯的市场促销。

官方公告提到，MiMo 团队基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），把 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降到优化前的近七分之一，并把可缓存 token 数量提升到优化前的近五倍。这会直接影响缓存命中率和推理效率。

团队还优化了专家并行方案、输入长度分桶策略等，以提高集群输入吞吐能力。换成开发者视角，这些优化最终反映在两件事上：长输入不再被价格表单独惩罚，缓存命中的价值被放大。

这也是为什么本轮价格调整对 Agent 和代码工具更敏感。普通聊天场景可能只感受到输出价下降；而代码仓库分析、多轮任务规划、长文档问答、RAG 工作流会反复携带相似上下文，能不能稳定吃到缓存，决定实际账单是否接近价格表上的低位。

对小团队最实际的影响

第一，长上下文功能可以重新进成本表。过去很多团队在做代码智能体、项目级知识库问答和多轮分析时，会把高性能模型放到最后兜底。MiMo-V2.5-Pro 调价后，可以重新测试它在规划、审查、复杂判断环节的性价比。

第二，缓存策略变成产品能力的一部分。便宜的缓存命中价只有在请求前缀足够稳定时才有意义。系统提示词、项目背景、工具说明、知识库检索片段如果每轮都大幅波动，实际成本会更接近未命中输入价。

第三，Token Plan 适合拿来重测编程工具，不适合直接当成应用后端预算。对于使用 OpenCode、OpenClaw、Claude Code 等工具的开发者，套餐额度提升会很明显；但面向用户的自定义应用仍需要按照普通 API Key 的按量价格核算。

可以先做一个小范围测试，而不是马上迁移全部工作流：

选出 2-3 个高价值长上下文任务，例如仓库级代码审查、需求拆解、文档问答或复杂内容改写。
分别记录 mimo-v2.5、mimo-v2.5-pro 与当前主力模型的质量、延迟、缓存命中率和输出长度。
把输入缓存命中、输入未命中和输出分开计费，不要只看平均每百万 tokens。
给 Agent 设置最大轮数、最大输出和失败重试上限。
只把质量差异足以覆盖切换成本的环节迁到新模型。

仍然需要谨慎的部分

“最高降幅 99%”主要来自缓存命中输入价格的变化，不能简单理解成所有请求都会便宜 99%。如果工作流缓存命中率低、输出很长，实际降幅会小很多。

Token Plan 的 Credits 也不能直接等同于 tokens。不同模型、缓存状态和输出 token 对 Credits 的消耗比例不同，尤其是 mimo-v2.5-pro 的未命中输入和输出消耗远高于缓存命中输入。买套餐前，最好先用自己的真实任务跑一轮账单样本。

还有一类信息暂时不适合写进决策：部分媒体稿和社区讨论提到模型榜单、团队背景、同业价格战和用户实测，但这些内容要么不是本次调价的必要事实，要么没有在官方文档里直接给出可复核口径。对开发者而言，现在最该验证的是自己的任务质量、缓存命中率和单位成本，而不是先接受一个泛化的“价格战结论”。

这次 MiMo-V2.5 调价的实际意义，是把一个高性能开源模型系列的 API 成本压到了可以认真测试的区间。小团队不必急着替换现有模型，但应该把长上下文、代码 Agent 和高价值分析任务重新拿出来算一遍。

新价格落在什么位置

Token Plan 也同步升级

旧用户得到一次额度重置

降价背后的技术解释

对小团队最实际的影响

仍然需要谨慎的部分

相关新闻

DeepSeek-V4-Pro API 降价：2.5 折从促销价变成新价格基准

Seedream 5.0 Pro 发布：字节把 AI 出图推进到可编辑设计流程

腾讯混元 Hy3 正式发布：开源 295B MoE 模型，Agent 与产品接入成为主线