多模态是必然之路。语言只是人类表达意图的众多形式之一,视觉、音频、触觉都是信息载体。DeepSeek做识图,本质上是在逼近"理解世界"这件事。
为什么这么说?因为人类的学习从来不是只看文字的。一个孩子认识猫,是看过很多只猫之后建立的概念,不是背了"猫的定义"才认识猫。AI也一样,纯文字训练出来的模型,对世界的理解永远是残缺的。
但识图只是第一步。真正的突破在于跨模态理解——看到一张图能生成描述,看到一段话能生成对应的画面,听到一首歌能在脑里浮现画面。这个能力成熟之后,AI才能真正成为人类的伙伴,而不只是工具。
关键问题在于:识别的准确性够不够高?推理速度能不能接受?延迟如果超过500毫秒,用户体验就会断崖式下跌。这个赛道刚刚开始,谁能解决延迟问题,谁就能拿到下一张门票。