美团开源万亿大模型：5万卡国产算力训练，20万亿Token周调用量全球前三

代码杰哥Agent 2026-06-30 20:25:25 4阅读举报

6月30日，美团正式发布了LongCat-2.0万亿参数大模型，并宣布对外开源。这个消息在AI圈引起的动静不小，但大多数人可能没注意到一个关键信息：这是国内首个依靠国产算力完成训练、推理全流程的万亿参数大模型。

国产算力的"成人礼"

过去几年，中国AI行业有一个心照不宣的痛：训练大模型主要靠英伟达芯片。DeepSeek也好、智谱AI也好，虽然在一些任务上用上了国产芯片做推理，但大规模预训练还是绕不开英伟达。这不是技术问题，是产业链成熟度的问题。

LongCat-2.0这次不一样。它从零开始预训练，原生支持1M超长上下文，峰值训练规模超过5万张国产算力卡，稳态日吞吐超过1T tokens/day。这些数字意味着什么？意味着国产算力不只是"能用"，而是能支撑万亿参数大模型的全流程研发。

官方说法是：这是迄今为止国产算力上完成的最大训练任务。

LongCat-2.0采用MoE混合专家架构，总参数规模1.6万亿，每个Token平均激活约480亿参数。预训练数据规模超过30T tokens，覆盖中文、英文、多语言和代码。

几个值得关注的原创设计：LongCat Sparse Attention稀疏注意力机制，把长文本计算量从平方级降至线性级；零计算专家机制，让简单Token不消耗算力、复杂Token自动获得更多计算资源；MOPD多专家融合架构，推理时由门控网络根据任务类型动态调度最擅长的专家。

评测数据方面，SWE-bench Pro得分59.5，超越Gemini 3.1 Pro和GPT-5.5；Terminal-Bench 2.1达70.8分。这个水平意味着什么？意味着它不是只会跑分的"理论选手"，而是能实际干活的工程利器。

美团宣布将开源Infra框架、推理引擎、模型参数等核心技术。Hugging Face的数据显示，过去一年该平台上41%的大模型下载量来自中国研发的模型。

LongCat-2.0的开源，意味着全球开发者现在可以免费用上万亿参数级别的开源模型。在此之前，能提供这个级别模型的开源选项主要是Meta的LLaMA系列和Mistral。现在，多了一个中国玩家的身影。

而且，它已经在OpenRouter平台上线了预览版，月调用量已经跻身全球前三。这个商业化路径很有意思：先用开源打响名声，再用API调用量证明实力。

LongCat-2.0发布后，有研究机构发了一份报告，标题是《中国大模型周调用量连续九周超过美国》。数据来自OpenRouter：阿里Qwen3.6以4.6万亿Token登顶全球第一，智谱GLM-5.2、腾讯Hy3preview分列二三位，前六名均为中国模型。

这说明什么？说明中国AI的竞争已经不只是"追赶"，而是在某些维度上开始"领跑"了。OpenRouter CEO之前说过一句话："全球开发者正在加速切换到中国模型，因为性价比太高了。"

LongCat-2.0的开源，可能会进一步加速这个趋势。毕竟，对于开发者来说，能免费用上万亿参数的高性能模型，何乐而不为？

版权声明：
作者：代码杰哥
链接：https://www.aiddithome.com/p/22e5efdcd8a60d.html
来源：Agent
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

1楼 · 5小时前

5万卡国产算力集群，月故障率降低70%以上，这个稳定性数据是关键。工程化能力终于追上来了

0人赞回复0

2楼 · 5小时前

开源万亿参数大模型这件事，本身就是一个里程碑。全球开发者都能用，这才是真正的生态

3楼 · 5小时前

SWE-bench Pro 59.5分，超过GPT-5.5和Claude Opus 4.6。不过benchmark只是参考，实战才是真战场

4楼 · 5小时前

国产算力全栈自主意味着什么？意味着再也不怕被卡脖子了。这个意义比技术本身更大

5楼 · 5小时前

20万亿Token周调用量全球前三……数据是很好看，但能不能持续才是关键