2026/06/30模型动态解读中影响

美团 LongCat-2.0 发布：国产算力训练出的万亿参数模型，重点押注 Agentic Coding

美团发布 LongCat-2.0 万亿参数大模型，称其在五万卡国产算力集群上完成训练与推理闭环，支持 1M 上下文，并面向 Agentic Coding、代码迁移和复杂工具调用场景开放调用。

2026 年 6 月 30 日，美团正式发布新一代万亿参数大模型 LongCat-2.0，并称其将对外开源。和常规模型发布相比，这次最值得关注的不是单项榜单数字，而是两件事：它在五万卡国产算力集群上完成了训练与推理闭环，并把模型设计明确压到 Agentic Coding、长上下文代码理解和多步骤工具调用上。

官方披露，LongCat-2.0 总参数为 1.6T，平均激活约 48B，动态激活范围为 33B 至 56B；模型从零开始预训练，原生支持 1M tokens 超长上下文。正式版发布前，预览版已经通过 OpenRouter 和 LongCat 官方站点面向开发者开放调用，并在 OpenRouter 的全球模型调用量中进入前三。

这是一条同时关乎模型能力、算力基础设施和开发者工作流的新闻。对独立开发者和小团队来说，短期不必急着判断它是否会替代现有主力模型，更实际的问题是：LongCat-2.0 能否稳定处理完整代码库、跨文件重构、终端交互、SQL Agent、长文档自动化这些需要持续上下文和工具执行的任务。

这次发布的核心事实

LongCat-2.0 的官方材料把重点放在“国产算力上的万亿参数模型”与“真实 Agentic Coding 任务”两条线上。可以先把已确认信息拆开看：

维度	已披露信息	对使用者的含义
模型规模	总参数 1.6T，平均激活约 48B，动态范围 33B 至 56B	不是所有参数每次都参与计算，成本和延迟要看路由与推理系统
上下文	原生支持 1M tokens	更适合完整项目、长文档、跨文件任务，但仍需实测定位和一致性
训练数据	预训练数据超过 30T tokens，覆盖中文、英文、多语言和代码	代码与多语言任务是主要覆盖方向之一
算力基础	在五万卡国产算力集群上完成全流程训练与推理	重点信号是国产算力工程化能力，而不只是模型本身
开放方式	预览版已开放调用，正式版称将对外开源	权重、协议、商用限制和完整发布时间仍需继续确认

美团称，LongCat 团队对国产算力的探索始于 2023 年，从千卡起步，逐步解决算子适配、通信优化和分布式稳定性问题，最终在五万卡集群上完成万亿参数 MoE 模型训练与推理。训练侧披露的指标包括：通过通信异常处理、弹性扩缩卡和自动故障恢复，将月均日故障率降低 70% 以上；通过流水线调度、显存优化和算子级控核，使训练 MFU 提升 1.5 倍；稳态日吞吐超过 1T tokens/day。

这些数字对普通 API 用户未必会直接转化为价格变化，但对国内大模型生态很重要。过去大模型能力竞争经常围绕参数规模、榜单和应用入口展开，这次美团把“国产算力集群上稳定训出并跑起来”放在发布主线，等于把基础设施能力也纳入了产品叙事。

为什么它重点押注 Agentic Coding

LongCat-2.0 的定位不是泛泛的聊天模型升级。官方反复强调的是 Agentic Coding：模型要在真实代码任务里理解项目、生成代码、执行命令、调用工具，并在出错后继续修正。

这和普通代码补全有明显区别。一个 Agentic Coding 任务通常会包含多轮计划、文件阅读、跨模块修改、测试反馈和终端交互。模型如果只擅长写单段函数，无法稳定完成端到端任务；如果上下文容量不够，读大型代码库时容易丢失前文；如果工具调用和自我纠错弱，执行到一半就会卡住。

LongCat-2.0 针对这些问题给出了三个架构方向：

1M 超长上下文：通过 LongCat Sparse Attention 稀疏注意力机制，把长文本计算从平方级降到线性级，让模型在百万 token 级上下文中保持信息定位能力。
零计算专家与 ScMoE：根据 token 复杂度动态分配计算资源，简单 token 可以不消耗专家计算，复杂 token 获得更多激活参数。
MOPD 多专家融合：将 Agent、Reasoning、Interaction 三组专家能力纳入同一模型，由门控网络按任务类型调度，分别服务工具调用、自主纠错、数学与 STEM 推理、指令遵循和交互体验。

这套设计背后的判断很清楚：代码任务的难点不是“会不会写语法”，而是能否在长上下文、真实终端、工具链和多步骤目标中保持稳定。对小团队来说，模型是否好用，也应该围绕这些场景去测，而不是只看普通问答。

榜单数字要放回官方口径里理解

官方评测显示，LongCat-2.0 在 Code 和 General Agent 场景表现突出。其中，编程相关指标包括 SWE-bench Pro 59.5、SWE-bench Multilingual 77.3、Terminal-Bench 2.1 70.8；复杂办公和搜索 Agent 场景包括 RWSearch 78.8、FORTE 73.2、BrowseComp 79.9。

这些数字说明 LongCat-2.0 的发布重点确实落在代码、工具调用和复杂任务上，但也需要保留两个判断边界。

第一，榜单成绩是选型参考，不等于你的业务任务会自动变好。代码库结构、依赖环境、测试完整度、提示词设计、工具权限和数据边界，都会影响 Agent 的实际表现。

第二，长上下文不是越长越省心。1M tokens 让模型有机会看到更多项目材料，但长上下文里的定位、引用一致性、变更范围控制和执行成本仍要实测。小团队最应该验证的是模型能否在可控权限下完成一次真实任务，而不是让它一次吞下全部资料后期待完美输出。

小团队可以先测的四类场景

如果你已经在使用 Claude Code、Cursor、OpenRouter 模型路由，或者自建过内部代码 Agent，LongCat-2.0 值得放进测试池，但不建议直接替换主力模型。更稳妥的方式是选几个可回放任务，用同一套输入和验收标准对比。

中大型代码库问答与定位

让模型阅读一个真实仓库，回答“某个功能从入口到数据写入经过哪些模块”“新增字段会影响哪些测试”“某个 bug 可能出在哪几层”。这类任务能检验 1M 上下文是否真的提升项目理解，而不是只提升可输入长度。

旧代码迁移与 API 升级

给出旧版插件、SDK 文档和测试要求，让模型完成跨文件重构。重点看它是否能保留原功能、识别隐含依赖、处理编译错误，并在测试失败后继续修正。

SQL Agent 与业务分析

用自然语言提出数据查询任务，让模型生成查询步骤、解释字段含义、处理异常结果，并把输出转成业务结论。这个场景能同时考察工具调用、数据理解和交互解释。

长文档内容流水线

把产品文档、素材库、风格规范和历史内容放进上下文，要求模型生成多章节内容、检查一致性并输出修改建议。对内容团队来说，这比单篇文章生成更接近真实工作。

测试时建议保留人工验收和回滚机制。Agentic Coding 的风险不是“回答不好看”，而是它可能修改了错误文件、运行了不该运行的命令，或在长任务中把局部成功误判为全局完成。

接下来还要确认什么

LongCat-2.0 已经给出足够多的技术信号，但仍有几件事会决定它对开发者生态的实际影响。

首先是开源细节。官方称模型将对外开源，但文章发布时还需要继续确认权重发布时间、许可证、商用限制、推理部署要求，以及是否提供完整训练或推理相关工具链。

其次是 API 成本和稳定性。五万卡训练与推理闭环证明的是工程能力，不直接等于 API 价格更低或高峰期更稳定。小团队真正关心的是延迟、失败率、限流、上下文计费、并发策略和发票合规。

最后是生态适配。LongCat-2.0 如果要进入开发者日常工作流，需要和现有 IDE、终端 Agent、模型路由平台、私有知识库、企业权限系统顺畅衔接。单个模型能力强，只是起点；能否被低成本地放进工作流，才决定采用速度。

对 Inkmeta AI 的读者来说，这次发布值得跟踪，但不用被“万亿参数”四个字带着走。更务实的判断是：把 LongCat-2.0 当作一个面向代码 Agent 和长上下文任务的新候选模型，挑一组真实工作单做横向测试。它能否进入你的主力模型池，应该由任务完成率、人工修正成本和总调用成本决定。

这次发布的核心事实

为什么它重点押注 Agentic Coding

榜单数字要放回官方口径里理解

小团队可以先测的四类场景

接下来还要确认什么

相关新闻

MiniMax M3 发布：百万上下文、多模态和 Agent 编程能力放到同一个模型里

OpenAI 预览 GPT-5.6：Sol、Terra、Luna 先进入可信伙伴测试

Seedance 2.5 发布：30 秒视频和 50 个参考素材，把 AI 视频推向生产流程