美团一天连发6项AI成果：评测『及格线』终于被撕开了

6月21日，AI圈又炸了一条消息：美团LongCat团队一天之内甩出了4个系统性评测基准，外加开源原生多模态模型LongCat-Next，覆盖交互式视频世界模型、高阶推理、具身AI动作表征、零样本TTS四大前沿方向。这个量级的产出，放在任何一家AI实验室都是值得发一篇Paper的程度，美团一个团队一天全放出来了。

General 365：把"推理能力"这个遮羞布扯下来了

先说最有冲击力的一个数据：General 365拿26款主流大模型跑了一遍，覆盖高阶推理场景，结果最强选手Gemini 3 Pro准确率只有62.8%，绝大多数模型连60分的及格线都没摸到。

这个数字刺眼在哪？行业这两年一直在吹"推理能力突破"，厂商们秀肌肉用的是MMLU、GSM8K这些老基准，但凡换个刁钻点的场景，真实能力就露馅了。General 365专门设计了一套剥离了专业知识依赖的高难度任务，让语言流利度和真实推理能力之间的差距无处躲藏。AI可以跟你聊得头头是道，但真让它解一道需要多步推理的题，能做出来的可能不到六成。

WBench：世界模型的"CT扫描仪"

第二个基准WBench，解决的是一个听起来很科幻的问题：AI从"被动看视频"进化到"主动和视频交互"，中间到底卡在哪？

传统的视频生成AI是被动的——你给它一段视频，它给你生成下一段。但真正的世界模型需要主动交互：你让它看机器人走进房间，它得能推理出如果机器人搬动一个箱子，房间里的光线会有什么变化。美团给这个能力起了个很形象的名字——"CT扫描仪"，WBench就是那台机器，把当前世界模型在多轮交互中的每个断层都给扫描出来。

LARYBench：颠覆具身智能的"常识"

LARYBench是这次最让从业者意外的一个。它的核心发现是：通用视觉模型在动作泛化性和控制精度上，全面碾压专门为具身智能训练的"专家模型"。

这个结论反直觉在哪？过去行业共识是要做好机器人，得专门收集机器人数据、训练专用模型。但LARYBench证明了一个更省力的路径——用大规模人类视频数据训练动作表征，效果反而更好。说人话就是：让AI看大量人类干活的视频，它自己就能学会怎么搬东西、怎么走路，不用你专门去采集机械臂数据。这个发现对整个具身智能行业的研发路径影响深远。

LongCat-Next开源：原生多模态能力

除了三个评测基准，美团还开源了原生多模态模型LongCat-Next。核心亮点是把视觉和语音当成AI的"母语"来处理，而不是外挂的插件——意味着模型在底层架构上就具备了处理多维感官信息的能力，而不是事后把不同模态拼起来。同时开源的还有核心离散分词器，开发者可以直接基于这个组件做二次开发。

评测标准变了，游戏规则就得跟着变

有一点值得关注：美团这四个基准，表面上是学术成果，实际上每一条都在重塑行业对"AI能力边界"的标准定义。General 365的60分及格线、LARYBench的泛化路径、WBench的交互断层诊断……这些基准一旦在行业里普及，厂商们再拿老基准刷分那套就不好使了。送外卖的美团，在这件事上比很多纯AI公司还要认真。