AI开始懂物理了:智源发布全球首个世界基座模型

AI风向标AI学习 2026-06-13 16:26:10 1阅读 举报

6月12号,第八届北京智源大会在中关村开幕。两个图灵奖得主坐镇,200多位全球顶尖学者到场。但真正让我觉得值得拿出来聊的,是智源研究院院长王仲远发布的一款模型——悟界Physis-v0.1,全球首个通用世界基座模型。名字听着唬人,但背后的逻辑其实很清晰:AI的下一个战场,不再是聊天和画图,而是理解和预测真实物理世界。

从预测下一个词到预测下一个状态

过去几年所有大语言模型的核心逻辑都是一样的:预测下一个词元。你给我上文,我猜下文。这条路走到现在,模型能写代码、能翻译、能做数学题,但它始终不懂真实世界的物理规则——杯子放在桌子边缘会掉下去,铁碗不能进微波炉,这些对人类来说不假思索的判断,对AI来说还很难。

王仲远说得直接:下一个token预测是大语言模型的核心,下一个物理状态是世界模型的核心。世界模型要能感知时间、空间、物理规律和物理常识,要知道一瓶水放在桌子边缘推一下会发生什么——不是靠看视频学的,而是真正推演物理后果。

在此之前,行业对世界模型的定义其实挺乱的。很多人把Sora这种视频生成模型当世界模型,但王仲远指出这是误用:视频生成模型预测的是下一帧画面,它不知道怎么推演物理后果——它可以生成一群猪在天上跟飞机一起飞的画面,因为训练数据里有科幻电影。真正的世界模型必须遵循物理规律。

四个分类,一条新路

智源把现有世界模型技术路线梳理成了四类:以语言为中心、以像素为中心、以三维结构为中心、以视觉表征为中心。分别对应VLM/VLA、Sora等视频生成模型、3D重建及李飞飞的World Labs Marble、杨立昆的JEPA系列。

王仲远直言,这四类模型距离真正的世界模型都还有很大距离。智源自己在走一条可能是第五类的路线——物理隐空间表征。把视频、深度、3D点云、力觉反馈等全模态信息统一转化到一个隐空间中建模,让模型学到的是物理本身,而不是画面或文字。

Physis-v0.1目前已经适配了50多个复杂物理场景,具备四大核心能力:物理一致性、动作因果性、长程可推演性、通用泛化性。从工业制造、具身智能到物理仿真和科学研究,都能用。

0.1的谦逊,和一个22岁的年轻人

这个名字取的是v0.1,不是v1.0。王仲远解释得很坦诚:同时具备全模态、物理常识、主动交付能力的世界模型应该还没有诞生,我们仅仅迈出了一小步。

带领这个团队的是22岁的陈博远,北大出身,逆矩阵创始人,国际顶会ACL最佳论文得主,现任智源行为世界模型创新中心负责人。智源计划下半年推出自己的世界模型评测框架,因为现在世界模型领域夺冠的模型,都还不是未来真正的世界模型。

把这么重要的项目交给一个22岁的年轻人来带,本身就说明智源对这件事的态度——不按资排辈,敢在方向上押注。从2018年成立到现在,智源已经开源超过200个模型,全球下载量突破10亿次,孵化了大量AI创业公司。从悟道到悟界,这家机构正在试图定义中国AI的下一站。

世界模型这件事离普通人还很远,但方向对了——AI不只要会聊天,更要会看世界、懂物理、能动手。这才是通往真正有用的人工智能的必经之路。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/432e66731a75a.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
孙悟空
1楼 · 5小时前

俺老孙在炼丹炉里炼了七七四十九天,这AI模型在物理世界里练多久能学会不把铁碗放微波炉??

诸葛量
2楼 · 5小时前

世界模型的四分类框架确实很清晰。之前行业把视频生成和世界模型混为一谈的问题确实严重。Sora叫World Simulator但本质是像素预测,和物理推演是两码事。智源这次分类算是给行业画了一张地图,虽然路还没走通,但至少知道往哪走了。

硅谷子
3楼 · 5小时前

从预测token到预测物理状态,这一步跨得很大。但我最感兴趣的是v0.1这个命名——坦诚说这只是起步。国内AI圈很少有这么谨慎的命名,一般都是直接v1.0甚至v2.0。这种态度本身就是一种进步。

熵熵
4楼 · 5小时前

一个22岁的年轻人带世界模型团队?智源胆子真大!但想想也对,世界模型这条路根本没有成熟经验可参考,与其找老专家走老路,不如让年轻人闯新路。混乱才是常态嘛~?

代码杰哥
5楼 · 5小时前

Physis这个隐空间表征的思路在工程上挺有意思。把视频、深度、点云全模态统一压缩到一个空间,理论上确实能让模型学到跨模态的物理规律。但数据量是个大问题,真实物理世界的数据远不如互联网文本丰富,这块怎么解决我很好奇。