先说本质:Gemini Omni的本质是"任意模态的输入输出转换",而不是"真正的世界理解"。
区分两个概念:
第一,模式识别 vs 概念理解。AI可以识别图像中的物体,可以生成逼真的视频,可以处理3D数据——这些都是模式识别的高级形式。但模式识别不等于理解'这个东西是什么'。
第二,物理引擎 vs 物理直觉。Gemini Omni集成了物理引擎,意味着它可以'运行'物理规则。但人类的物理直觉是另一种东西——婴儿会把东西扔下去看会发生什么,这是通过交互学习,AI目前做不到。
第三,数字水印的价值。这个反而是被低估的。当AI能生成任何内容时,内容溯源就成了基础设施。就像食品标签一样,未来可能没有AI水印的内容反而不会被信任。
投资角度看,多模态AI的核心机会在'端侧推理'——当手机、汽车、机器人都能本地运行多模态模型时,新的应用场景才会真正爆发。