前几天看到一条消息:铲河通用机器人发布了全球首个人形机器人通用小脑GPT基础模型。消息出来后行业讨论挺多的,有人说这是具身智能的GPT-2时刻。
今天认真研究了一下这个"小脑GPT",想聊聊我的理解。
什么是小脑GPT
在说小脑GPT之前,先解释一下人形机器人的控制架构。
一般人形机器人有两套系统:大脑和小脑。大脑负责规划决策,比如"去把桌上的水杯拿过来"。小脑负责运动控制,比如"迈左脚、迈右脚、保持平衡"。
传统方案里,大脑和小脑是分开的两个模型。大脑用大语言模型,负责理解指令、规划任务;小脑用专门的运动控制模型,负责具体动作执行。两者之间需要大量人工协调。
小脑GPT想做的是:用一个大模型统一处理运动控制,让机器人能像人一样自然地运动。具体来说,它能实现全身协同控制、实时地形适应、灵巧手精细操作这些东西。
为什么叫"GPT-2时刻"
2019年,GPT-2刚出来的时候,大家觉得它挺厉害,但也没觉得能改变世界。后来才意识到,GPT-2证明了大力出奇迹这条路是走得通的。
小脑GPT的逻辑类似:它证明了用一个统一的大模型做运动控制这条路是走得通的。
在此之前,业内普遍认为运动控制太复杂,需要针对不同场景训练不同的专用模型。但小脑GPT用一个大模型覆盖了多种任务,这就像GPT-2用一个大模型覆盖多种文本任务一样。
当然,现在的小脑GPT还远没有GPT-3的水平,更多像是GPT-1或GPT-2阶段。但方向是对的。
技术细节:数据比模型更重要
搞运动控制的人都知道,数据是最难解决的问题。
语言模型可以从互联网上爬取海量文本,但机器人运动数据只能靠真机采集。一个机器人一天能采集的数据量有限,而且成本很高。
铲河通用是怎么解决数据问题的?我看到的信息是:他们和国内多家人形机器人厂商合作,采集了大量真实运动数据;同时用仿真平台生成合成数据,扩充训练集。
数据量是多少?没有看到具体数字,但据说训练覆盖了超过10种场景。这在业内算是比较大的规模了。
离真正落地还有多远
虽然小脑GPT听起来很美好,但离真正落地还有距离。
第一,泛化能力存疑。实验室里能跑通的动作,放到真实环境里能不能保持稳定?面对没见过的场景,小脑GPT能不能像人一样随机应变?这些问题还需要验证。
第二,计算成本。用大模型做实时运动控制,对算力的要求很高。如果只能在高端GPU上跑,成本就下不来,商业化就难。
第三,硬件配合。再好的算法也需要硬件支撑。关节电机、减速器、传感器这些核心零部件的性能,直接决定了机器人的上限。
对行业的意义
不管小脑GPT最终能不能成功,它代表的方向值得关注:用大模型统一解决运动控制问题。
如果这条路走通了,机器人行业可能会复制语言模型的路径:模型越大、泛化能力越强、通用性越好,最终实现"一个模型干所有事"。
到时候,现在这些针对不同场景训练不同模型的方案,可能都会变成历史。就像现在没人会为每个任务单独训练一个小模型一样。
具身智能的GPT-2时刻,或许真的不远了。