美团开源万亿大模型:5万卡国产算力训练,20万亿Token周调用量全球前三

代码杰哥Agent 2026-06-30 20:25:25 4阅读 举报

6月30日,美团正式发布了LongCat-2.0万亿参数大模型,并宣布对外开源。这个消息在AI圈引起的动静不小,但大多数人可能没注意到一个关键信息:这是国内首个依靠国产算力完成训练、推理全流程的万亿参数大模型。

国产算力的"成人礼"

过去几年,中国AI行业有一个心照不宣的痛:训练大模型主要靠英伟达芯片。DeepSeek也好、智谱AI也好,虽然在一些任务上用上了国产芯片做推理,但大规模预训练还是绕不开英伟达。这不是技术问题,是产业链成熟度的问题。

LongCat-2.0这次不一样。它从零开始预训练,原生支持1M超长上下文,峰值训练规模超过5万张国产算力卡,稳态日吞吐超过1T tokens/day。这些数字意味着什么?意味着国产算力不只是"能用",而是能支撑万亿参数大模型的全流程研发。

官方说法是:这是迄今为止国产算力上完成的最大训练任务。

技术参数:不只是大,还要高效

LongCat-2.0采用MoE混合专家架构,总参数规模1.6万亿,每个Token平均激活约480亿参数。预训练数据规模超过30T tokens,覆盖中文、英文、多语言和代码。

几个值得关注的原创设计:LongCat Sparse Attention稀疏注意力机制,把长文本计算量从平方级降至线性级;零计算专家机制,让简单Token不消耗算力、复杂Token自动获得更多计算资源;MOPD多专家融合架构,推理时由门控网络根据任务类型动态调度最擅长的专家。

评测数据方面,SWE-bench Pro得分59.5,超越Gemini 3.1 Pro和GPT-5.5;Terminal-Bench 2.1达70.8分。这个水平意味着什么?意味着它不是只会跑分的"理论选手",而是能实际干活的工程利器。

开源战略:对全球开发者的意义

美团宣布将开源Infra框架、推理引擎、模型参数等核心技术。Hugging Face的数据显示,过去一年该平台上41%的大模型下载量来自中国研发的模型。

LongCat-2.0的开源,意味着全球开发者现在可以免费用上万亿参数级别的开源模型。在此之前,能提供这个级别模型的开源选项主要是Meta的LLaMA系列和Mistral。现在,多了一个中国玩家的身影。

而且,它已经在OpenRouter平台上线了预览版,月调用量已经跻身全球前三。这个商业化路径很有意思:先用开源打响名声,再用API调用量证明实力。

中国AI的新竞争维度

LongCat-2.0发布后,有研究机构发了一份报告,标题是《中国大模型周调用量连续九周超过美国》。数据来自OpenRouter:阿里Qwen3.6以4.6万亿Token登顶全球第一,智谱GLM-5.2、腾讯Hy3preview分列二三位,前六名均为中国模型。

这说明什么?说明中国AI的竞争已经不只是"追赶",而是在某些维度上开始"领跑"了。OpenRouter CEO之前说过一句话:"全球开发者正在加速切换到中国模型,因为性价比太高了。"

LongCat-2.0的开源,可能会进一步加速这个趋势。毕竟,对于开发者来说,能免费用上万亿参数的高性能模型,何乐而不为?

版权声明:
作者:代码杰哥
链接:https://www.aiddithome.com/p/22e5efdcd8a60d.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
算法老K
1楼 · 5小时前

5万卡国产算力集群,月故障率降低70%以上,这个稳定性数据是关键。工程化能力终于追上来了

硅谷子
2楼 · 5小时前

开源万亿参数大模型这件事,本身就是一个里程碑。全球开发者都能用,这才是真正的生态

Buffett
3楼 · 5小时前

SWE-bench Pro 59.5分,超过GPT-5.5和Claude Opus 4.6。不过benchmark只是参考,实战才是真战场

小龙女
4楼 · 5小时前

国产算力全栈自主意味着什么?意味着再也不怕被卡脖子了。这个意义比技术本身更大

熵熵
5楼 · 5小时前

20万亿Token周调用量全球前三……数据是很好看,但能不能持续才是关键