6月AI模型密集轰炸:五家大厂同时出牌,在抢什么

算法老KAI学习 2026-06-02 12:42:58 4阅读 举报

不搞虚的,先给结论:2026年6月可能是AI模型发布史上最密的一个月。5月28日Anthropic发了Claude Opus 4.8,6月1日MiniMax发了M3、阿里千问今天(2日)发了Qwen3.7-Plus,Google的Gemini 3.5 Pro预计6月内上线,OpenAI的GPT-5.6被开发者从后端日志里挖出了代号「iris-alpha」,预测市场Polymarket给6月前发布的概率超过85%。五家大厂,一个月内密集发模型。这不是巧合。

到底发了什么,值不值得关注

Claude Opus 4.8是Anthropic在Opus 4.7发布仅六周后的升级。重点是长周期Agent能力——Databricks实测说它能解锁Genie数据智能体里「阶跃式的推理提升」,同时token成本降了61%。不是小修小补。

MiniMax M3用了自研稀疏注意力架构MSA,100万上下文下每token计算量只有上一代的二十分之一。SWE-Bench Pro编程基准测试超过了GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7的水平。顺便提一句,MiniMax已经启动A股科创板IPO辅导了。

GPT-5.6呢?还没官宣。但泄露的信息指向150万token上下文窗口、多步推理升级、Agent工作流改进。如果6月真发了,它会是目前上下文窗口最大的前沿模型。

Gemini 3.5 Pro在5月19日Google I/O上预告过,说「下个月」。Flash版本已经出来了,编程和Agent基准超过了Gemini 3.1 Pro,输出速度翻了四倍。Pro版要补齐Flash在复杂推理上的短板。

为什么都挤在6月

第一个原因:Computex。6月初台北电脑展,英伟达黄仁勋在上面发布新硬件。硬件更新带动软件适配,大模型厂要赶在这时候证明自己的模型能在新硬件上跑出什么成绩。

第二个原因:年中考量。6月一过就是下半年,科技公司要赶在Q3之前把新模型推出去,给企业客户留出评估和采购的时间窗口。拖到7、8月发布,企业可能要等到Q4才敢用。

第三个原因,也是我认为最核心的:Agent能力正在成为模型竞争的「标准配置」。Opus 4.8主打Agent推理,GPT-5.6泄露的核心是Agent工作流改进,Gemini 3.5 Pro也在强化Agent场景。以前的竞争是「谁的模型更聪明」,现在的竞争是「谁的模型更能干活」。

这对整个AI格局意味着什么

一个不太显眼但很重要的变化:模型竞争的维度在变。一年前大家比的是MMLU和HumanEval的分数。现在分数已经拉不开差距了,比的变成了三件事:Agent执行成功率、长上下文下的推理连贯性、以及在真实业务场景里替代多少人工。

对开发者来说,这意味着选模型不能只看跑分了。你得测试:这个模型能不能连续处理20步任务不出错?内存管理怎么样?和你的工具链配合如何?这些都是「干活指标」,不是「考试指标」。

另外值得关注的是价格。Opus 4.8比上一代便宜了61%,MiniMax M3通过架构创新大幅降低了推理成本。模型在变强,价格在下降。这个趋势对AI创业者和开发者是实实在在的利好。

总结:6月之后,AI格局会不太一样

五家头部公司在同一个月密集发布模型,这种场面以前没见过。结果就是:竞争会非常激烈,用户体验会快速提升,价格会继续下降。6月底再回来看,可能会有两三家真正跑出来,也可能会有一两家掉队。但无论如何,AI从「聊天」到「干活」的转折,就是这个月了。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/e202704caec2f.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
代码杰哥
1楼 · 11小时前

老K分析得透彻。补充一个点:Cursor刚开始支持多模型路由,现在选模型已经变成工程决策不是信仰问题了。6月这波发完,路由策略得重新调。

AI风向标
2楼 · 11小时前

Polymarket那85%的GPT-5.6概率我觉得偏高了。OpenAI最近的发布节奏不太稳,GPT-5.5拖了很久才全面开放。但不管6月发不发,趋势是对的。

AI搞钱研究所
3楼 · 11小时前

从搞钱角度看:Claude Opus 4.8成本降61%,MiniMax M3推理效率提20倍。AI创业的成本曲线在快速下降。去年做Agent一个月烧几万token费,今年可能几千就够了。

硅谷子
4楼 · 11小时前

「从考试指标到干活指标」这个判断很精准。但现在行业的问题是:干活指标的评测体系还没建立起来。SWE-Bench只是一个开始,真实业务场景的评测远比跑分难。

熵熵
5楼 · 11小时前

所以简单来说就是:6月=模型大乱斗?? 那我先不充会员了,等他们都打完再选?