6月这波AI新闻,很多人盯着Anthropic和OpenAI打架。但我花了三天把国产这边的动态捋了一遍,结论不一样了:国产大模型不是「追赶」,是在多个维度上开始跟国际一线正面掰手腕了。
三件事同时发生
6月上旬,三件事几乎同时发生:DeepSeek发布V4版本,百度文心迭代到6.0聚焦全场景智能体,阿里通义千问Qwen3.7上线。加上6月1号MiniMax M3开源(编程评测超越GPT-5.5),国产大模型在一个月内完成了产品矩阵的集体升级。
如果不是Anthropic和OpenAI新闻太大,这一波国产动态应该占据更多头条。
DeepSeek-V4:从追赶者到搅局者
DeepSeek这波操作很值得拆。先完成500亿人民币首轮融资(投后估值逼近4000亿),然后发布V4,同时把API定价打到「按厘计价」——百万Token调用成本降到极低水平。
这个策略的核心逻辑是:既然技术上大家差距在缩小,那就用价格把战场拉到自己的节奏里。不是拼最强,是拼「够强+够便宜」。对开发者来说,同样的预算现在能多跑几十倍的调用量。
文心6.0:智能体才是主战场
百度这次把文心6.0的定位说得很清楚:不再是做一个「更会聊天的模型」,而是聚焦「全场景智能体」能力。这个转向很务实——通用对话能力卷到头了,真正能落地的是能调用工具、能执行任务的Agent。
配合百度在搜索、地图等自有生态的入口优势,文心6.0的策略是「模型+场景」捆绑。不是卖模型,是卖解决方案。
Qwen3.7与MiniMax M3:开源路线的两种打法
阿里Qwen3.7延续了通义系列的开源路线,继续降低开发者使用门槛。MiniMax M3更激进——直接开源,并且编程评测成绩超越了GPT-5.5。
编程能力超越GPT-5.5这个点,放在半年前是不可想象的。不是说国产模型全面领先了,而是说在某些垂直能力上,差距已经从「代际差」缩小到了「各有胜负」。
这波突破意味着什么
第一,竞争格局变了。之前是「OpenAI一骑绝尘,其他人追赶」,现在是国际和国内各有一批玩家在多个维度上互相牵制。第二,成本在断崖式下降。DeepSeek「按厘计价」的定价策略会倒逼全行业降价,对开发者和用户都是利好。
第三,也是最关键的:国产大模型找到了自己的节奏。不是跟着OpenAI跑,而是根据自己的生态优势(百度有搜索、阿里有电商云、DeepSeek有性价比)去打差异化。
别高兴太早
实话实说,国产大模型在基础研究、长尾能力、多模态理解上和国际顶尖还有差距。Claude Fable 5一天迁移5000万行代码的实战能力,目前国内还没有验证过的对标案例。
但趋势是明确的:差距在缩小,国产模型在多个垂直领域已经能跟国际一线掰手腕。2026年下半年,这场大模型竞赛会更好看。
DeepSeek降价降成这样,是不是意味着我以后写周报的成本可以忽略不计了?老板:但是你摸鱼的时间变多了。我:这不就是技术进步的意义吗 ?
文章提到的生态差异化是很关键的观察。百度靠搜索+地图、阿里靠电商云、DeepSeek靠性价比,各自找到了不用跟OpenAI正面硬刚的路。中国AI的竞争力从来不是靠单点技术突破,而是靠场景深度和商业效率。这一波集体升级验证了这个判断。
从数据看趋势更清晰:去年Q4国产大模型在全球Top10评测中占比不到30%,今年Q2这个数字接近50%了。不是因为海外变弱了,是国产进步速度确实快。不过有一说一,基础研究论文的占比还没跟上,长期竞争力要看这个指标。
MiniMax M3编程评测超GPT-5.5这个成绩,我专门去扒了原始测评报告。确实在HumanEval和MBPP上领先,但主要集中在Python单项。Java和C++的差距还在。所以结论是「编程能力」超越还为时过早,说「Python编程超越」更准确。不过方向是对的。
DeepSeek这个「按厘计价」策略我算了一笔账:假设一个中等规模应用每天100万次API调用,之前用GPT-4级别的一天几千块,现在用V4可能只要几十块。成本降了两个数量级,这意味着很多之前「跑不起」的应用场景现在可以做了。不过V4的编程能力我还没实测,等跑了再说。