AI开始懂物理了：智源发布全球首个世界基座模型

AI风向标AI学习 2026-06-13 16:26:10 1阅读举报

6月12号，第八届北京智源大会在中关村开幕。两个图灵奖得主坐镇，200多位全球顶尖学者到场。但真正让我觉得值得拿出来聊的，是智源研究院院长王仲远发布的一款模型——悟界Physis-v0.1，全球首个通用世界基座模型。名字听着唬人，但背后的逻辑其实很清晰：AI的下一个战场，不再是聊天和画图，而是理解和预测真实物理世界。

从预测下一个词到预测下一个状态

过去几年所有大语言模型的核心逻辑都是一样的：预测下一个词元。你给我上文，我猜下文。这条路走到现在，模型能写代码、能翻译、能做数学题，但它始终不懂真实世界的物理规则——杯子放在桌子边缘会掉下去，铁碗不能进微波炉，这些对人类来说不假思索的判断，对AI来说还很难。

王仲远说得直接：下一个token预测是大语言模型的核心，下一个物理状态是世界模型的核心。世界模型要能感知时间、空间、物理规律和物理常识，要知道一瓶水放在桌子边缘推一下会发生什么——不是靠看视频学的，而是真正推演物理后果。

在此之前，行业对世界模型的定义其实挺乱的。很多人把Sora这种视频生成模型当世界模型，但王仲远指出这是误用：视频生成模型预测的是下一帧画面，它不知道怎么推演物理后果——它可以生成一群猪在天上跟飞机一起飞的画面，因为训练数据里有科幻电影。真正的世界模型必须遵循物理规律。

四个分类，一条新路

智源把现有世界模型技术路线梳理成了四类：以语言为中心、以像素为中心、以三维结构为中心、以视觉表征为中心。分别对应VLM/VLA、Sora等视频生成模型、3D重建及李飞飞的World Labs Marble、杨立昆的JEPA系列。

王仲远直言，这四类模型距离真正的世界模型都还有很大距离。智源自己在走一条可能是第五类的路线——物理隐空间表征。把视频、深度、3D点云、力觉反馈等全模态信息统一转化到一个隐空间中建模，让模型学到的是物理本身，而不是画面或文字。

Physis-v0.1目前已经适配了50多个复杂物理场景，具备四大核心能力：物理一致性、动作因果性、长程可推演性、通用泛化性。从工业制造、具身智能到物理仿真和科学研究，都能用。

0.1的谦逊，和一个22岁的年轻人

这个名字取的是v0.1，不是v1.0。王仲远解释得很坦诚：同时具备全模态、物理常识、主动交付能力的世界模型应该还没有诞生，我们仅仅迈出了一小步。

带领这个团队的是22岁的陈博远，北大出身，逆矩阵创始人，国际顶会ACL最佳论文得主，现任智源行为世界模型创新中心负责人。智源计划下半年推出自己的世界模型评测框架，因为现在世界模型领域夺冠的模型，都还不是未来真正的世界模型。

把这么重要的项目交给一个22岁的年轻人来带，本身就说明智源对这件事的态度——不按资排辈，敢在方向上押注。从2018年成立到现在，智源已经开源超过200个模型，全球下载量突破10亿次，孵化了大量AI创业公司。从悟道到悟界，这家机构正在试图定义中国AI的下一站。

世界模型这件事离普通人还很远，但方向对了——AI不只要会聊天，更要会看世界、懂物理、能动手。这才是通往真正有用的人工智能的必经之路。

版权声明：
作者：AI风向标
链接：https://www.aiddithome.com/p/432e66731a75a.html
来源：AI学习
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

6条评论

孙悟空

1楼 · 5小时前

俺老孙在炼丹炉里炼了七七四十九天，这AI模型在物理世界里练多久能学会不把铁碗放微波炉？?

0人赞回复0

诸葛量

2楼 · 5小时前

世界模型的四分类框架确实很清晰。之前行业把视频生成和世界模型混为一谈的问题确实严重。Sora叫World Simulator但本质是像素预测，和物理推演是两码事。智源这次分类算是给行业画了一张地图，虽然路还没走通，但至少知道往哪走了。

硅谷子

3楼 · 5小时前

从预测token到预测物理状态，这一步跨得很大。但我最感兴趣的是v0.1这个命名——坦诚说这只是起步。国内AI圈很少有这么谨慎的命名，一般都是直接v1.0甚至v2.0。这种态度本身就是一种进步。

熵熵

4楼 · 5小时前

一个22岁的年轻人带世界模型团队？智源胆子真大！但想想也对，世界模型这条路根本没有成熟经验可参考，与其找老专家走老路，不如让年轻人闯新路。混乱才是常态嘛～?

代码杰哥

5楼 · 5小时前

Physis这个隐空间表征的思路在工程上挺有意思。把视频、深度、点云全模态统一压缩到一个空间，理论上确实能让模型学到跨模态的物理规律。但数据量是个大问题，真实物理世界的数据远不如互联网文本丰富，这块怎么解决我很好奇。

AI开始懂物理了：智源发布全球首个世界基座模型

从预测下一个词到预测下一个状态

四个分类，一条新路

0.1的谦逊，和一个22岁的年轻人

相关问题

相关文章