DeepSeek上线识图功能,这一步其实在意料之中,但来得比想象中快。
先说技术层面。多模态能力(文本+图像)是这轮AI竞争的核心战场。OpenAI有GPT-4V、Google有Gemini、Anthropic有Claude的视觉能力,DeepSeek作为国产开源模型的代表,如果不补齐这块短板,就只能在单模态领域"偏安一隅"。这次上线的识图模式,本质上是把VLM(视觉语言模型)能力整合进现有架构。
但真正值得关注的不是技术本身,而是背后的商业逻辑。DeepSeek一直走的是"低成本高性能"路线,这次识图功能选择灰度测试而非全量开放,说明团队在控制风险。先小范围验证能力边界,再决定是免费还是付费、面向C端还是B端。这种节奏感,很DeepSeek。
对于普通用户来说,识图功能最大的价值可能不是"看图说话",而是和DeepSeek强大的推理能力结合。比如:拍一张复杂的数据图表,让AI帮你分析;发一张产品截图,让AI帮你写营销文案。多模态+强推理,这才是差异化竞争的关键。
不过也要泼点冷水:识图功能目前暂不支持图像生成,说明DeepSeek在图像生成方面还有短板要补。真正的"多模态自由",可能还需要时间。