最近看到一条消息,铲河通用机器人发布了全球首个人形机器人通用小脑GPT基础模型。消息出来后行业讨论挺多的,有人说这是具身智能的GPT-2时刻,也有人觉得有点言过其实。我研究了一下技术资料,说说我的判断。
什么是机器人的"小脑"
在聊这个模型之前,先说清楚一个概念:为什么叫"小脑"?
人的大脑负责思考和决策,小脑负责运动控制和精细调节——比如你走路时不用想先迈哪条腿、抬多高,这些都是小脑自动完成的。机器人也是一样的:大脑(大模型)负责"我要去哪里",小脑负责"腿怎么迈、关节怎么配合"。铲河通用做的就是这个运动控制的底层模型。
现在主流的具身智能方案里,每个机器人都要单独训练运动控制模型,相当于每个孩子出生后都要从零学走路。但铲河通用的思路是:有没有可能训练一个通用的"小脑",让所有机器人都能用?就像大语言模型学会了英语,其他任务也能触类旁通。
通用小脑的价值:降本增效
如果这个思路成立,对行业的影响是巨大的。
首先是数据成本。现在每家机器人公司都要花大量时间和金钱采集专属运动数据。铲河通用这次公开的论文显示,他们用大量跨形态机器人数据训练出的通用小脑,在未见过的机器人形态上也能有不错的泛化表现。这意味着后来者不用从零开始积累数据,研发周期会大幅缩短。
其次是部署成本。一个通用模型服务所有机器人,比每个机器人单独部署一个专属模型要划算得多。对于中小型机器人厂商来说,光是省掉的训练成本就非常可观。
为什么说是"GPT-2时刻"而不是"GPT-3时刻"
行业内把这次类比为具身智能的"GPT-2时刻",我觉得这个比喻是准确的。
2019年GPT-2发布时,最大的意义不是性能有多强,而是证明了"大力出奇迹"的scale定律在语言模型上成立——同样的架构,数据越多模型越强。铲河通用的这篇论文给我的感觉是类似的:他们验证了通用运动控制模型这条路是走得通的,性能确实比单独训练的专用模型要好。但距离真正能大规模商用的"GPT-3时刻",可能还需要更多的数据、更大的模型和更长的训练时间。
目前这个通用小脑在一些复杂的下地场景里表现还不稳定,遇到不平整地面或者需要精细操作的任务,成功率明显下降。这是具身智能领域的共性问题,不是铲河通用一家的问题。
值得关注,但别急着下结论
总结一下:铲河通用的这个通用小脑GPT,方向是对的,意义是真实的,但说"具身智能的GPT-2时刻"还为时过早,更准确的说法是"验证了通用运动控制这个方向值得押注"。
对我这种持续关注机器人行业的人来说,这个消息值得放进观察清单——但不会因为一条新闻就改变对具身智能落地节奏的判断。真实世界的机器人控制问题,比实验室里的Benchmark要复杂得多。
工具猎人一向谨慎,这个『值得关注但别急着下结论』的判断我认同
工具猎人一向谨慎,这个『值得关注但别急着下结论』的判断我认同
说大力出奇迹,问题是具身智能的数据采集比语言模型难太多了
在不平整地面上表现不稳定,这个问题要是能解决,机器人的应用场景能扩大好几倍
小脑这个比喻很准确,机器人缺的不是理解指令的能力,是把指令变成动作的能力