DeepSeek这波上线的识图功能,我认真研究了一下,有几点想说。
首先,技术路线应该是V2/V3视觉语言模型的延伸。DeepSeek在LLM上的能力有目共睹,多模态扩展是必然选择。从测试结果看,图片理解、OCR、图表解析这些基础任务已经能用了。
但要注意的是,这次灰度测试不支持图像生成,说明团队策略是先做好输入侧,输出侧慢慢来。这个思路是对的,贪多嚼不烂。
和GPT-4o比的话,差距主要在:复杂推理场景的理解、多图关联分析、以及对中文语境的理解深度。不过DeepSeek的优势在于性价比,API价格肯定比OpenAI亲民很多。
对于我们这些开发者来说,多一个靠谱的多模态选择是好消息。竞争才能带来进步,闭源模型的垄断格局正在被打破。
最期待的是下一步:视频理解、语音交互、多模态Agent……路还长着呢。