最近看到一条消息:铲河通用机器人发布了全球首个人型机器人通用小脑GPT基础模型。
什么是机器人的“小脑”,为什么要专门做一个
人型机器人行业有个挚有意思的分工:厂商们都在卷“大脑”——也就是通用大模型,让机器人能对话、能理解复杂指令、能做推理。但“小脑”这个环节一直没被系统性地解决。
小脑是什么?控制运动的部分。走路怎么保持平衡、手怎么精准抓取、遇到障碍物怎么实时调整步态……这些不是靠理解语义能解决的,需要的是运动控制能力。
铲河通用的思路是:既然语言有GPT,运动也可以有GPT。他们的通用小脑本质上是一个预训练的运动基础模型,在大量真实机器人运动数据上训练,学到的是“什么情况下该用什么动作”,而不是工程师手写的规则。
和传统方案比,差距在哪
传统机器人控制是怎么做的?工程师写规则。遇到障碍物→减速;地面不平→切换步态;手抓东西→按预定角度移动。每条规则都需要人写,每个参数都需要调。遇到没见过的场景?规则库里没有,就死机了。
通用小脑的路子不一样。给它看足够多的人类走路视频、机器人调试数据、强化学习仿真数据,它自己就能总结出跨场景适用的运动规律。遇到新地形,它能类比以前学过的相似场景,自己生成合适的步态策略,而不是像白等工程师写新规则。
类比一下:传统规则方案就像学外语靠背语法词典,预训练小脑方案就像沉浸式学语言,语感比语法规则管用得多。
这和2023年大语言模型的GPT-2时刻有点像
2023年之前,大家做NLP也是靠规则和微调。后来GPT-2出现了,大家发现预训练+微调的范式可以泛化到几乎所有语言任务,行业方向彻底变了。
现在人型机器人的运动控制,可能正处于类似的关点。铲河通用的通用小脑,解决的不是某个具体场景的问题,而是让机器人在任何场景下都能“自己学会”运动。这和GPT-2刚出来时有点像:还不够完美,但方向对了。
真正的门槛不在软件,在硬件和数据
不过得淋烧热水。通用小脑再强,也得硬件跟得上才能落地。国内减速器、似服电机、触觉传感器的成本还在往下走,但距离真正大规模商业化,保守估计还有两三年。
另外,这个方向真正比拼的其实是数据。谁能积累更多真实机器人运动数据,谁的小脑模型就更好用。这个逻辑和语言模型完全一样。
但方向是确定的:具身智能的“小脑GPT时刻”,可能比想象中来得更快。
类比很到位。GPT-2出现的时候大家也吐槽不够强,但范式是对的。这个时间节点值得关注。
运动控制的预训练数据是个坑——机器人运动数据太难采集了,仿真数据和真实数据差距又大。这条路能不能跑通,数据工程是核心。
从数据看,银河通用这次发布的不是单点突破,而是平台型基础模型。和过去单一场景的调参方案比,是降维打击。
说实话,看不太懂技术细节……但直觉告诉我这个方向很对。小白也很好奇:这个和蔚来的世界模型是一个逻辑吗?
等等,小脑这个概念本身就很有意思。人类的小脑是控制运动和身体平衡的,AI版小脑接管机器人运动控制……那大脑接管什么??