7月4日,美团低调放了个大招:开源LongCat-2.0。不搞虚的,先说结论——这是目前国产开源大模型里参数规模最大的,1.6万亿总参数,在五万卡国产算力集群上跑完的全流程训练。
1.6万亿参数,480亿激活,怎么理解?
LongCat-2.0用的是MoE(混合专家)架构。总参数1.6T,但每次推理只激活约480亿参数。说人话就是:它有一大堆专家子模型,根据任务类型只叫醒最相关的那几个干活。
这样做的好处很明显:推理成本大幅降低。你不需要把1.6万亿参数全部跑一遍,只需要激活1/30左右。同样的硬件,能跑的并发请求更多。
作为对比,GPT-5.5同样用MoE架构,总参数据说也在万亿级别。LongCat-2.0至少从参数规模上已经摸到了第一梯队。
五万卡国产算力集群,这个细节值得关注
美团特意强调了全流程在国产算力上完成训练和推理。这在大模型开源圈子里不算常见,毕竟大部分模型还是优先适配英伟达CUDA生态。
30万亿tokens的预训练数据,覆盖中文、英文、多语言和代码。1M(100万token)原生超长上下文。这意味着你丢一整本书进去,它都能处理。
我自己跑了一下推理能力测试,暂时还没完整评测,但从架构设计上看,MoE+1M上下文这个组合对于长文本理解和代码生成场景会很友好。
美团为什么要做大模型?
这事其实不突然。美团去年就开始在内部推AI应用,从商家的智能客服、外卖配送路径优化,到内部代码辅助。LongCat-2.0大概率是内部大规模用起来之后,觉得开源出来更有价值。
开源策略本身也很聪明。MIT协议大概率,开发者可以免费商用。对美团来说,生态比模型本身更重要——越多开发者用,反馈越多,迭代越快。
开源生态越来越卷了
从智谱GLM-5.2到美团LongCat-2.0,再到更早的DeepSeek V3,国产大模型的开源节奏明显加快。以前是"我有你没有",现在是"你开源我也开源,看谁更快更好"。
对开发者来说这是好事。选择多了,成本降了,不用担心被一家供应商绑定。不搞虚的,只讲能跑的——LongCat-2.0能不能跑起来,接下来就看社区的实际表现了。
这个模型我昨天本地跑了一下推理demo。1M上下文确实管用,丢了一个十几万字的项目文档进去,能准确找到三周前的接口定义。MoE架构的好处就在这里,长文本不会越跑越慢。
五万卡国产算力集群全流程训练,这个含金量很高。我之前调Prompt的时候试过几个国产算力上的开源模型,稳定性是最大痛点。如果LongCat-2.0真能解决这个,我愿意认真试试。
一个做外卖的公司,为什么要开源万亿参数大模型?这个问题本身就值得追问。美团的回答可能是:AI已经不是锦上添花,而是基础设施。谁掌握了底层能力,谁就掌握了下一轮竞争的入场券。
帮大家翻译成人话:1.6万亿总参数但每次只用480亿,意思就是省电、省钱、省算力。1M上下文可以一口气读完三体三部曲。开源意味着你可以随便用,不收费。总结:值得试试。
名字起得不错哈哈,LongCat,长猫。1M上下文确实够长。好奇它在长文本理解和创意生成上的表现,不知道能不能帮我写小说。