阿里发布Qwen-Robot三件套：给机器人装上手、脚和大脑

AI风向标人形机器人 2026-06-17 08:45:31 4阅读举报

6月16日，阿里发布了千问具身智能大模型Qwen-Robot系列。不是发一个模型，是一口气发了三个：VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav、世界模型Qwen-RobotWorld。

说人话就是：一个管手的，一个管脚的，一个管脑子的。

三个模型，各司其职

Qwen-RobotManip是VLA（视觉-语言-动作）操作模型，负责让机器人理解"抓什么、怎么抓"。在标准操作基准测试中，它完成了诸如倒水、叠衣服、拧瓶盖等任务，成功率据称超过了此前最优的同类模型。

Qwen-RobotNav是VLN（视觉-语言-导航）移动模型，有点像给机器人装了个内置高德地图。不只是"从A走到B"，而是理解"去厨房拿瓶水"这种语义级指令，中间还要避开障碍物。

Qwen-RobotWorld是世界模型，这可能是三个里最有意思的一个。它在虚拟环境中模拟物理世界，让机器人在"脑子里"预演动作的后果——抓杯子会不会滑落、推门需要多大力。今年世界模型是个热词，各家都在布局，阿里的思路是把它跟操作和导航模型耦合在一起，形成闭环。

具身智能行业有个老问题：导航的不会操作，操作的走不动路。很多实验室做出来的机器人，要么只能在固定位置做精细操作，要么只能满地跑但啥也不会干。

阿里的解法是：三个模型可以单独部署，也可以协同运转。比如让机器人在仓库里自己走到货架前，精准抓取货物，再走到打包台——这就是Nav加Manip加World三个模型联动的场景。

这对仓储物流、制造业来说不是概念，是实实在在能降本的东西。据行业数据，中国仓储物流环节的人工成本每年以百分之八到十二的速度增长，而一台人形机器人的年均运维成本已经降到人工的百分之四十左右。

过去两年，中国人形机器人行业的热闹主要在硬件端。宇树G1能后空翻了，智元量产过千台了，优必选出货量全球第一了。但"造壳"和"造脑"一直是两条平行线——做机器人的不懂大模型，做大模型的不碰物理世界。

阿里这次把千问大模型的能力体系化地延伸到物理世界，释放了一个明确信号：大厂开始认真做"机器人操作系统"了。就像Android统一了手机软件生态一样，未来控制机器人肢体动作的"大脑"也可能走向平台化。

腾讯、字节在这方面也没闲着。腾讯的Robotics X实验室去年发了几篇具身智能论文，字节据传也在组建具身团队。但阿里跑在最前面，直接用千问的模型能力做了一个完整产品系列出来。

三个模型中，世界模型Qwen-RobotWorld值得单独拿出来说。它的核心价值不在操作本身，而在"预演"。机器人在真实世界中试错的成本太高了——抓坏一个零件、撞倒一个货架，都是真金白银的损失。

世界模型让机器人在虚拟空间里先跑几万遍，找到最优动作再在现实中执行。这就像飞行模拟器训练飞行员——在模拟器里摔一千次不要钱，在天上摔一次就要命。据行业估算，部署世界模型进行预训练，可以将机器人真实场景的试错成本降低百分之七十以上。

从千问聊天到千问写代码，再到千问控制机器人，阿里的AI正在从屏幕里走出来。这可能是2026年AI行业最值得关注的趋势：大模型不再是"对话框里的聪明大脑"，而是开始长出能干活的手脚。

版权声明：
作者：AI风向标
链接：https://www.aiddithome.com/p/6cf582758a4a7.html
来源：人形机器人
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

6条评论

1楼 · 17小时前

从数据角度看，仓储物流人形机器人替代率每提升1个百分点，对应市场增量约80亿人民币。如果Qwen-Robot的协同方案能把部署门槛降到「开箱即用」级别，这条曲线会加速很多。关键看他们跟哪些整机厂合作落地。

0人赞回复0

2楼 · 17小时前

三个模型协同听起来很棒。但我有个问题：谁来定义「正确的手脚协同」？机器人在仓库里走错路再纠正，这个「错」的代价谁来承担？具身智能的伦理标准好像还没跟上技术节奏。

3楼 · 17小时前

一个管手的、一个管脚的、一个管脑子的——这不就是人类的配置吗？? 所以AI不是要取代人类，是在认真cosplay人类对吧

4楼 · 17小时前

VLA模型我跑过早期版本，推理延迟是个大坑。操作模型对实时性要求极高，200ms以上的延迟抓杯子就来不及了。好奇Qwen-RobotManip在端侧推理的延迟能做到多少，这直接决定能不能上产线。

5楼 · 17小时前

三个模型协同运转→我突然想到我上周写的代码：模块A单独测试全过，模块B也全过，合在一起跑直接炸。机器人要是也这个德行，画面太美不敢看 ?