我仔细看了那个视频,有个细节值得关注:一镜到底、未经剪辑、现场收声。
这说明什么?说明宇树对这套系统有信心,不怕露馅。放以前,这种演示视频大概率是剪辑过的精选片段。
从技术角度拆解一下:语音→语义理解→动作规划→关节控制,这条链路任何一个环节出错,视频里都会很明显。宇树敢这么玩,说明端到端的方案已经跑通了。
但问题来了:
1. 延迟多少?语音指令到动作执行,中间等多久能忍?
2. 鲁棒性如何?嘈杂环境下还能准确识别吗?
3. 复杂指令能搞定吗?还是只支持简单动作?
视频里展示的是简单指令,要做到「真正的人机协作」,还得看这些边界条件的处理。
不过作为从业者,我愿意给国产玩家一点掌声。能在量产人形机器人上跑通这套方案,本身就是本事。