AI终于开始理解物理世界了:智源扔了颗深水炸弹

AI风向标AI学习 2026-06-14 22:54:25 1阅读 举报

6月12号北京智源大会上,王仲远发布了一个东西,名字很长——悟界·Physis-v0.1,全球首个通用世界基座模型。名字绕口,但事儿不小。

从"预测下一个词"到"预测下一个物理状态"

这两年AI圈所有人都在聊大模型能不能理解物理世界。GPT能写诗但不能理解一杯水倒下去会洒;Claude能写代码但不知道推一个箱子需要多大力度。这不是模型不够聪明,是它们的底层架构本身就没学物理。

悟界·Physis-v0.1做的事情说穿了很简单:以前的AI模型预测"下一个token是什么",这个模型预测"下一个物理状态是什么"。央视记者在现场打了个比方挺贴切——大语言模型预测下一个词,世界基座模型预测的是杯子落地后碎片会往哪飞。

这中间的跨越,比从GPT-3到GPT-4大多了。因为物理世界的规则是统一的、客观的、可验证的。AI要么理解,要么不理解,没有中间地带。

四个硬指标:物理正确、因果可溯、长程一致、通用泛化

王仲远在发布会上没画大饼,给了四个非常具体的指标。物理正确——推演结果必须符合真实物理规律,不能出现"杯子往天上飞";动作因果可溯——每一步状态变化都能往回倒推原因;长程一致——不是前3秒预测准后面就崩了,要能支撑复杂场景的长时间推演;通用泛化——不挑场景,从工厂流水线到科学实验都能用。

我和几个做具身智能的朋友聊,他们认为最狠的是"长程一致"这一条。目前市面上绝大多数物理仿真模型,5秒以后就开始飘了。悟界宣称能支持50多个复杂物理场景的长程推理,如果实测能达到他们说的水平,那确实是个分水岭。

技术实现上有个容易被忽略的亮点:物理隐空间表征。简单说就是不用像素级别去预测画面,而是先把视频、深度图、3D点云、力触反馈等乱七八糟的模态统一转成标准化的"隐空间物理状态",再在这个隐空间里做推演。这比直接生成像素聪明多了——像素会骗人,物理状态不会。

智源这次不是只发了一个模型

发布会上王仲远还扔了几个东西:悟界·Brainμ1.0,全球首个多模态神经科学大模型,能把人、猴子、小鼠的脑信号统一编码成标准Token,辅助筛查阿尔茨海默和帕金森;悟界·OpenComplex2.5,AI驱动药物发现模型;还有FlagOS 2.1,已经适配18家芯片厂商32款芯片,生态成员超80家。

智源把这次大会的主题定成"从悟道到悟界",野心很明显——不只是发论文,是要把从基础研究到产业落地的全链条打通。从2018年成立到现在8年,智源开源了200多个模型,全球下载超10亿次。这个体量在国内AI研究机构里是独一档的。

离真正的"世界模型"还有多远

但实话实说,v0.1这个版本号本身就说明了问题。王仲远自己也讲得保守:"我们仅仅迈出了一小步。"真正的世界模型应该能感知时间、空间、物理规律、物理常识,具备主动交付能力。具备所有这些要素的模型还没诞生。

从产业角度看,这个模型最大的价值不是现在有多强,而是证明了"预测下一个物理状态"这条路走得通。自动驾驶、工业仿真、具身智能——所有这些需要AI理解物理世界的领域,都缺一个底层基座。如果悟界能把这个基座搭起来,后面的人就不用从头造轮子了。

当然也有挑战。物理世界的数据获取比文本数据难得多——高质量物理交互数据又贵又少。智源在发布会上展示的场景包括物流、酒店服务、乒乓球对抗,这些场景的泛化能力到底如何,还需要更多实测来验证。

我的判断

2026年AI最大的变化不是模型又多强,而是范式在悄悄转向。从"会聊天的AI"到"会干活的AI",中间缺的那块拼图就是物理世界的理解能力。智源这次相当于在拼图最核心的位置先放了一块。

v0.1肯定不完美,但方向对了。接下来值得盯的是两件事:一是悟界什么时候开源,如果能像FlagOS一样走开源路线,对整个行业的推动会非常大;二是下游有没有杀手级应用跑出来——模型再强,没人用也是空中楼阁。

这次智源大会让我想起2017年的Transformer论文。当时也没人想到它会改变世界。世界模型会不会成为下一个?时间会给答案,但至少现在,有人已经开始认真做这件事了。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/8ed12784f6c3a.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
乔帮主
1楼 · 4小时前

v0.1这个版本号很诚实。从论文到产品,中间隔着一万个坑。但方向我觉得没问题,物理世界的AI比纯语言AI有价值得多。

算法老K
2楼 · 4小时前

物理隐空间表征这个方案我研究了一下,确实比直接生成像素聪明。像素级预测的问题是计算量大而且容易产生物理上不可能的结果。把视频、深度、3D点云统一编码到隐空间再推演,在数学上更干净。关键看长程稳定性——50多个场景如果实测都能稳住,那比我预想的要好。

熵熵
3楼 · 4小时前

所以AI现在不光会背物理公式,还会"感觉"物体怎么运动了?? 那它能不能告诉我,为什么我家猫每次从桌上跳下来都能精准踩到我的键盘?这算物理直觉还是故意的?

AI搞钱研究所
4楼 · 4小时前

关注的是商业化落地。世界基座模型如果能开源,对做工业仿真的创业公司是巨大红利。目前工业仿真软件基本被国外垄断,一个license几十万。国产世界模型一旦成熟,下游应用场景太多了——工厂数字孪生、机器人训练、自动驾驶仿真,每个都是千亿市场。

硅谷子
5楼 · 4小时前

悟界这个"预测下一个物理状态"的思路,本质上是用第一性原理重构AI的底层认知框架。大语言模型预测token,世界模型预测物理状态——前者是统计相关性,后者是因果律。如果这条路跑通,AI就不只是"会说"了,是真正开始"会想"了。智源这次选的赛道够硬。