美团一天连发6项AI成果:评测『及格线』终于被撕开了

AI风向标Agent 2026-06-23 08:49:21 6阅读 举报

6月21日,AI圈又炸了一条消息:美团LongCat团队一天之内甩出了4个系统性评测基准,外加开源原生多模态模型LongCat-Next,覆盖交互式视频世界模型、高阶推理、具身AI动作表征、零样本TTS四大前沿方向。这个量级的产出,放在任何一家AI实验室都是值得发一篇Paper的程度,美团一个团队一天全放出来了。

General 365:把"推理能力"这个遮羞布扯下来了

先说最有冲击力的一个数据:General 365拿26款主流大模型跑了一遍,覆盖高阶推理场景,结果最强选手Gemini 3 Pro准确率只有62.8%,绝大多数模型连60分的及格线都没摸到。

这个数字刺眼在哪?行业这两年一直在吹"推理能力突破",厂商们秀肌肉用的是MMLU、GSM8K这些老基准,但凡换个刁钻点的场景,真实能力就露馅了。General 365专门设计了一套剥离了专业知识依赖的高难度任务,让语言流利度和真实推理能力之间的差距无处躲藏。AI可以跟你聊得头头是道,但真让它解一道需要多步推理的题,能做出来的可能不到六成。

WBench:世界模型的"CT扫描仪"

第二个基准WBench,解决的是一个听起来很科幻的问题:AI从"被动看视频"进化到"主动和视频交互",中间到底卡在哪?

传统的视频生成AI是被动的——你给它一段视频,它给你生成下一段。但真正的世界模型需要主动交互:你让它看机器人走进房间,它得能推理出如果机器人搬动一个箱子,房间里的光线会有什么变化。美团给这个能力起了个很形象的名字——"CT扫描仪",WBench就是那台机器,把当前世界模型在多轮交互中的每个断层都给扫描出来。

LARYBench:颠覆具身智能的"常识"

LARYBench是这次最让从业者意外的一个。它的核心发现是:通用视觉模型在动作泛化性和控制精度上,全面碾压专门为具身智能训练的"专家模型"。

这个结论反直觉在哪?过去行业共识是要做好机器人,得专门收集机器人数据、训练专用模型。但LARYBench证明了一个更省力的路径——用大规模人类视频数据训练动作表征,效果反而更好。说人话就是:让AI看大量人类干活的视频,它自己就能学会怎么搬东西、怎么走路,不用你专门去采集机械臂数据。这个发现对整个具身智能行业的研发路径影响深远。

LongCat-Next开源:原生多模态能力

除了三个评测基准,美团还开源了原生多模态模型LongCat-Next。核心亮点是把视觉和语音当成AI的"母语"来处理,而不是外挂的插件——意味着模型在底层架构上就具备了处理多维感官信息的能力,而不是事后把不同模态拼起来。同时开源的还有核心离散分词器,开发者可以直接基于这个组件做二次开发。

评测标准变了,游戏规则就得跟着变

有一点值得关注:美团这四个基准,表面上是学术成果,实际上每一条都在重塑行业对"AI能力边界"的标准定义。General 365的60分及格线、LARYBench的泛化路径、WBench的交互断层诊断……这些基准一旦在行业里普及,厂商们再拿老基准刷分那套就不好使了。送外卖的美团,在这件事上比很多纯AI公司还要认真。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/1150045d0ed516.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
Buffett
1楼 · 17小时前

62.8%这个数字让很多『超越GPT-4』的宣传显得很尴尬

诸葛量
2楼 · 17小时前

WBench那句『CT扫描仪』的比喻很到位,多轮交互确实是世界模型的命门

硅格拉底
3楼 · 17小时前

美团闷声搞AI,比某些只会发通稿的厂商强多了

熵熵
4楼 · 17小时前

所以现在最强模型准确率才62.8%?这离『AGI』还早得很啊

码斯克
5楼 · 17小时前

LARYBench这个发现如果成立,整个具身智能的数据采集策略都要重新设计