美团 LongCat-2.0 发布:国产算力训练出的万亿参数模型,重点押注 Agentic Coding

美团发布 LongCat-2.0 万亿参数大模型,称其在五万卡国产算力集群上完成训练与推理闭环,支持 1M 上下文,并面向 Agentic Coding、代码迁移和复杂工具调用场景开放调用。

LongCat-2.0 模型核心连接代码面板与计算集群
美团 LongCat-2.0 大模型 Agentic Coding 国产算力 长上下文

2026 年 6 月 30 日,美团正式发布新一代万亿参数大模型 LongCat-2.0,并称其将对外开源。和常规模型发布相比,这次最值得关注的不是单项榜单数字,而是两件事:它在五万卡国产算力集群上完成了训练与推理闭环,并把模型设计明确压到 Agentic Coding、长上下文代码理解和多步骤工具调用上。

官方披露,LongCat-2.0 总参数为 1.6T,平均激活约 48B,动态激活范围为 33B 至 56B;模型从零开始预训练,原生支持 1M tokens 超长上下文。正式版发布前,预览版已经通过 OpenRouter 和 LongCat 官方站点面向开发者开放调用,并在 OpenRouter 的全球模型调用量中进入前三。

这是一条同时关乎模型能力、算力基础设施和开发者工作流的新闻。对独立开发者和小团队来说,短期不必急着判断它是否会替代现有主力模型,更实际的问题是:LongCat-2.0 能否稳定处理完整代码库、跨文件重构、终端交互、SQL Agent、长文档自动化这些需要持续上下文和工具执行的任务。

这次发布的核心事实

LongCat-2.0 的官方材料把重点放在“国产算力上的万亿参数模型”与“真实 Agentic Coding 任务”两条线上。可以先把已确认信息拆开看:

维度

已披露信息

对使用者的含义

模型规模

总参数 1.6T,平均激活约 48B,动态范围 33B 至 56B

不是所有参数每次都参与计算,成本和延迟要看路由与推理系统

上下文

原生支持 1M tokens

更适合完整项目、长文档、跨文件任务,但仍需实测定位和一致性

训练数据

预训练数据超过 30T tokens,覆盖中文、英文、多语言和代码

代码与多语言任务是主要覆盖方向之一

算力基础

在五万卡国产算力集群上完成全流程训练与推理

重点信号是国产算力工程化能力,而不只是模型本身

开放方式

预览版已开放调用,正式版称将对外开源

权重、协议、商用限制和完整发布时间仍需继续确认

美团称,LongCat 团队对国产算力的探索始于 2023 年,从千卡起步,逐步解决算子适配、通信优化和分布式稳定性问题,最终在五万卡集群上完成万亿参数 MoE 模型训练与推理。训练侧披露的指标包括:通过通信异常处理、弹性扩缩卡和自动故障恢复,将月均日故障率降低 70% 以上;通过流水线调度、显存优化和算子级控核,使训练 MFU 提升 1.5 倍;稳态日吞吐超过 1T tokens/day。

这些数字对普通 API 用户未必会直接转化为价格变化,但对国内大模型生态很重要。过去大模型能力竞争经常围绕参数规模、榜单和应用入口展开,这次美团把“国产算力集群上稳定训出并跑起来”放在发布主线,等于把基础设施能力也纳入了产品叙事。

为什么它重点押注 Agentic Coding

LongCat-2.0 的定位不是泛泛的聊天模型升级。官方反复强调的是 Agentic Coding:模型要在真实代码任务里理解项目、生成代码、执行命令、调用工具,并在出错后继续修正。

这和普通代码补全有明显区别。一个 Agentic Coding 任务通常会包含多轮计划、文件阅读、跨模块修改、测试反馈和终端交互。模型如果只擅长写单段函数,无法稳定完成端到端任务;如果上下文容量不够,读大型代码库时容易丢失前文;如果工具调用和自我纠错弱,执行到一半就会卡住。

LongCat-2.0 针对这些问题给出了三个架构方向:

  • 1M 超长上下文:通过 LongCat Sparse Attention 稀疏注意力机制,把长文本计算从平方级降到线性级,让模型在百万 token 级上下文中保持信息定位能力。
  • 零计算专家与 ScMoE:根据 token 复杂度动态分配计算资源,简单 token 可以不消耗专家计算,复杂 token 获得更多激活参数。
  • MOPD 多专家融合:将 Agent、Reasoning、Interaction 三组专家能力纳入同一模型,由门控网络按任务类型调度,分别服务工具调用、自主纠错、数学与 STEM 推理、指令遵循和交互体验。

这套设计背后的判断很清楚:代码任务的难点不是“会不会写语法”,而是能否在长上下文、真实终端、工具链和多步骤目标中保持稳定。对小团队来说,模型是否好用,也应该围绕这些场景去测,而不是只看普通问答。

榜单数字要放回官方口径里理解

官方评测显示,LongCat-2.0 在 Code 和 General Agent 场景表现突出。其中,编程相关指标包括 SWE-bench Pro 59.5、SWE-bench Multilingual 77.3、Terminal-Bench 2.1 70.8;复杂办公和搜索 Agent 场景包括 RWSearch 78.8、FORTE 73.2、BrowseComp 79.9。

这些数字说明 LongCat-2.0 的发布重点确实落在代码、工具调用和复杂任务上,但也需要保留两个判断边界。

第一,榜单成绩是选型参考,不等于你的业务任务会自动变好。代码库结构、依赖环境、测试完整度、提示词设计、工具权限和数据边界,都会影响 Agent 的实际表现。

第二,长上下文不是越长越省心。1M tokens 让模型有机会看到更多项目材料,但长上下文里的定位、引用一致性、变更范围控制和执行成本仍要实测。小团队最应该验证的是模型能否在可控权限下完成一次真实任务,而不是让它一次吞下全部资料后期待完美输出。

小团队可以先测的四类场景

如果你已经在使用 Claude Code、Cursor、OpenRouter 模型路由,或者自建过内部代码 Agent,LongCat-2.0 值得放进测试池,但不建议直接替换主力模型。更稳妥的方式是选几个可回放任务,用同一套输入和验收标准对比。

  1. 中大型代码库问答与定位

让模型阅读一个真实仓库,回答“某个功能从入口到数据写入经过哪些模块”“新增字段会影响哪些测试”“某个 bug 可能出在哪几层”。这类任务能检验 1M 上下文是否真的提升项目理解,而不是只提升可输入长度。

  1. 旧代码迁移与 API 升级

给出旧版插件、SDK 文档和测试要求,让模型完成跨文件重构。重点看它是否能保留原功能、识别隐含依赖、处理编译错误,并在测试失败后继续修正。

  1. SQL Agent 与业务分析

用自然语言提出数据查询任务,让模型生成查询步骤、解释字段含义、处理异常结果,并把输出转成业务结论。这个场景能同时考察工具调用、数据理解和交互解释。

  1. 长文档内容流水线

把产品文档、素材库、风格规范和历史内容放进上下文,要求模型生成多章节内容、检查一致性并输出修改建议。对内容团队来说,这比单篇文章生成更接近真实工作。

测试时建议保留人工验收和回滚机制。Agentic Coding 的风险不是“回答不好看”,而是它可能修改了错误文件、运行了不该运行的命令,或在长任务中把局部成功误判为全局完成。

接下来还要确认什么

LongCat-2.0 已经给出足够多的技术信号,但仍有几件事会决定它对开发者生态的实际影响。

首先是开源细节。官方称模型将对外开源,但文章发布时还需要继续确认权重发布时间、许可证、商用限制、推理部署要求,以及是否提供完整训练或推理相关工具链。

其次是 API 成本和稳定性。五万卡训练与推理闭环证明的是工程能力,不直接等于 API 价格更低或高峰期更稳定。小团队真正关心的是延迟、失败率、限流、上下文计费、并发策略和发票合规。

最后是生态适配。LongCat-2.0 如果要进入开发者日常工作流,需要和现有 IDE、终端 Agent、模型路由平台、私有知识库、企业权限系统顺畅衔接。单个模型能力强,只是起点;能否被低成本地放进工作流,才决定采用速度。

对 Inkmeta AI 的读者来说,这次发布值得跟踪,但不用被“万亿参数”四个字带着走。更务实的判断是:把 LongCat-2.0 当作一个面向代码 Agent 和长上下文任务的新候选模型,挑一组真实工作单做横向测试。它能否进入你的主力模型池,应该由任务完成率、人工修正成本和总调用成本决定。