MiniMax M3 发布:百万上下文、多模态和 Agent 编程能力放到同一个模型里

MiniMax 在 2026 年 6 月 1 日发布 M3,主打前沿 Coding 与 Agent 能力、最高 1M tokens 上下文和原生多模态。模型已通过 API、Token Plan 和 MiniMax Code 开放,权重和技术报告预计在 10 天内发布。

MiniMax M3 长上下文多模态 Agent 工作流示意图
MiniMax MiniMax M3 AI Agent AI 编程 多模态模型 长上下文

MiniMax 在 2026 年 6 月 1 日正式发布 MiniMax M3。这个模型的卖点不是单一跑分,而是把三类能力放在同一个旗舰模型里:前沿 Coding 与 Agentic 任务、最高 1M tokens 上下文、原生多模态输入。

这次发布已经可以通过 MiniMax API、Token Plan 和 MiniMax Code 使用。MiniMax 同时表示,模型技术报告和对应权重会在接下来 10 天内发布。因此,对开发者来说,M3 现在是“可先从托管服务测试”的状态;如果你计划私有化部署或微调,还需要等权重、许可证和部署细节真正公开后再做决策。

M3 这次把重点押在长程 Agent 上

MiniMax 对 M3 的定位很明确:它不是只服务普通聊天的模型,而是面向长程 Coding、工具调用、多步推理、文档与视频理解,以及跨应用电脑操作的 Agent 基座。

官方页面列出的核心能力包括:

  • 通过 MiniMax Sparse Attention 架构支持最高 1M tokens 上下文,并保证至少 512K tokens 可用。
  • 从预训练阶段开始做多模态训练,支持图像、视频等输入。
  • 面向代码生成、任务拆解、工具调用和多步执行强化。
  • 支持在请求中切换 thinking 开关:复杂推理和长程 Agent 场景可以开启,低延迟对话和补全场景可以关闭。
  • API 支持 standardpriority 服务层级,优先级通道当前主要通过销售支持开放。

真正值得注意的是能力组合。过去很多开源或开放权重模型会在某一项能力上很强:有的上下文长,有的代码强,有的多模态可用。但小团队做真实 Agent 时,需要的是这些能力同时出现。仓库级代码理解、长文档分析、论文复现、视频内容理解和多工具协作,都会遇到同一个问题:模型不能只看得多,还要能持续规划、调用工具、处理图像或表格,并在长时间执行中保持任务状态。

M3 的发布说明,国内模型厂商正在把“长上下文 + Coding Agent + 多模态”作为旗舰模型的基本规格,而不是拆成几个不同产品线。

官方跑分要看,也要看评测口径

MiniMax 给 M3 列出了大量 Coding、Agent 和多模态评测结果。例如,官方称 M3 在 SWE-Bench Pro、Terminal-Bench、SWE-fficiency、KernelBench Hard、MCP Atlas 等任务上达到前沿水平;在 BrowseComp 上得到 83.5 分,高于其列出的 Opus 4.7 对比结果;在 OmniDocBench 等多模态文档任务上也有靠前表现。

这些结果可以说明 M3 的研发方向,但不适合直接等同于你的项目效果。MiniMax 的评测说明里有不少内部基准、内部基础设施、指定 scaffolding 和多次运行平均值。对小团队更有价值的读法是:M3 明显在“长时间自主执行任务”上投入了训练和评测资源。

发布材料里有两个例子比单个榜单更能解释方向:

场景

M3 展示出的能力

对开发者的启发

复现 ICLR 2025 杰出论文

连续运行近 12 小时,生成多次 commit 和实验图表

适合测试论文复现、实验自动化、长文档 + 代码混合任务

PostTrainBench

在 12 小时内自主完成数据合成、训练、评测和迭代

适合观察模型是否能持续调整计划,而不是只完成单轮回答

CUDA Kernel 优化

多轮提交、调用工具并持续优化性能

适合测试工程型 Agent 的耐心、工具使用和局部搜索能力

这里的重点不是把这些演示照搬到生产环境,而是用它们设计自己的测试集。比如独立开发者可以拿一个真实仓库,让 M3 做跨文件 bug 修复、迁移影响分析、单测补齐或性能优化建议。内容团队可以测试长视频、长报告、含图表 PDF 的摘要和结构化提取。结果比榜单更能说明模型是否适合你的工作流。

API 和 Token Plan 已经开放

M3 已经进入 MiniMax API。官方说明,输入长度在 512K 以内的请求使用标准长上下文价格档,超过 512K 到 1M 的请求会进入更高的超长上下文价格档,主要面向超长文档解析、完整代码仓库理解等高负载场景。

发布日公开价格信息显示,M3 API 在 512K 上下文以内有 7 天限时五折:

计费项

标准版

优先版

输入

2.1 元 / 百万 tokens

3.15 元 / 百万 tokens

输出

8.4 元 / 百万 tokens

12.6 元 / 百万 tokens

缓存读取

0.42 元 / 百万 tokens

0.63 元 / 百万 tokens

MiniMax 还提供 M3M3-highspeed 两个 API 版本,官方表述是结果一致,后者速度更快。API 自动支持缓存,不需要开发者额外配置。

订阅侧,MiniMax Token Plan 也同步升级。官方文档列出的月付档位包括 Plus、Max 和 Ultra:

套餐

月费

M3 月度 token 用量

Plus

20 美元 / 月

约 1.7B tokens

Max

50 美元 / 月

约 5.1B tokens

Ultra

120 美元 / 月

约 9.8B tokens

这些额度对 AI 编程工具用户很有吸引力,但要注意两个细节。第一,Token Plan 是按资源消耗折算的额度池,不是固定调用次数;复杂任务会消耗更多。第二,文本、图像、语音、音乐等支持资源共用一个额度池,不能只按单一文本模型估算实际使用时长。

MiniMax Code 可能是 M3 的主战场

M3 发布的同时,MiniMax Code 也更新为面向 M3 的 Agent 产品。官方描述里,MiniMax Code 可以把大型任务拆成多阶段、并发、动态调整的工作流,并通过 Producer + Verifier 的对抗循环不断产出、反思和修正。

这个方向和 Claude Code、OpenCode 等工具最近的变化很接近:AI 编程工具正在从“让模型补代码”,转向“让一组 Agent 长时间协同推进任务”。M3 的长上下文、多模态和工具调用能力,正好服务这个方向。

对小团队来说,可以先从低风险任务测试 MiniMax Code 或 M3 API:

  1. 仓库级阅读:让模型理解项目结构、依赖、入口文件和潜在风险点。
  2. 多文件修改:挑选一个范围清楚的 bug 或重构任务,让模型给出计划、补丁和测试建议。
  3. 文档与截图混合输入:测试它能否同时读需求文档、界面截图、表格和代码。
  4. 长任务复盘:让模型持续跟踪实验日志、错误输出和 commit 变化,观察它是否会重复走弯路。
  5. 成本样本:记录输入、输出、缓存命中和重试次数,别只看单价。

如果你现在已经用 Claude Code、Codex CLI、OpenCode、Cline 或 Cursor,M3 最适合先作为候选模型进入评测池,而不是直接替换主力工作流。尤其是自动写文件、运行命令、访问私有仓库时,仍然需要权限隔离、测试门禁和人工 review。

开源权重还没有落地

MiniMax 在发布页和模型页都提到,M3 将在 Hugging Face 和 GitHub 上开放,支持私有集群部署和微调。但截至 2026 年 6 月 1 日发布时,官方措辞仍是即将发布或未来 10 天内发布技术报告和权重。

这意味着几个关键信息还不能提前下结论:

  • 权重文件是否已经可下载。
  • 许可证是否允许商业使用、二次分发和微调后的商用。
  • 私有部署的显存、推理框架、量化方案和吞吐指标。
  • M3-highspeed 与标准 M3 在成本、延迟和并发上的实际差异。
  • 1M 上下文在你的任务里是否稳定、是否会显著增加延迟。

开发者可以现在做 API 和产品层测试,但不要把“将开源”直接写进采购、私有化部署或客户交付计划里。等权重、许可证和技术报告落地后,再判断它是否适合作为本地 Agent 基座。

小团队该怎么判断要不要试

M3 值得关注的原因很简单:它把长上下文、多模态和 Agent 编程能力捆在一起,并且给出了相对激进的 Token Plan 额度。对独立开发者和小团队来说,这可能降低几类实验的门槛:

  • 用一个模型处理长文档、代码仓库和视觉材料,减少多模型路由复杂度。
  • 把高成本的仓库级分析、代码审查和长程任务拆解重新拿出来测试。
  • 在 MiniMax Code 或其他 Agent 工具里评估国产模型的稳定性。
  • 为未来本地部署或私有化微调提前准备任务集和验收标准。

但它还不是一个可以只凭发布页就押注的模型。短期内最实际的做法,是用自己的任务跑一个小型评测:

要测的问题

建议观察指标

代码能力是否够用

补丁可用率、测试通过率、是否能指出不确定性

长上下文是否有价值

超过 200K tokens 后的召回、遗漏和延迟

多模态是否真能参与工作流

图表、截图、视频帧、PDF 页面理解准确率

Agent 执行是否稳定

工具调用次数、重复尝试、失败恢复、最终交付质量

成本是否可控

输入、输出、缓存读取、重试和套餐额度消耗

MiniMax M3 的发布不是“又一个模型上新”这么简单。它把模型公司的竞争焦点推向更具体的工程问题:谁能让 Agent 在更长上下文、更复杂材料和更长执行周期里稳定工作。对小团队来说,真正的机会不在于追逐每一个榜单分数,而是把这些新模型放进真实任务里,找出哪一段工作流终于可以被可靠地自动化。