今天(6月1日)MiniMax发布了M3模型。我先说结论:这是国产大模型在编程和Agent能力上第一次正面对标全球第一梯队,不是"接近",是在部分指标上已经超过了。
先说结论:编程超GPT-5.5,Agent超Opus 4.7
看几个硬指标:SWE-Bench Pro(真实软件工程修复)得分超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。BrowseComp(自主信息检索)83.5分,把Opus 4.7的79.3甩在后面。Claw-Eval(Agent评测)拿到当前最高分。
不是跑分好看就完事了。M3接了一个硬核任务:读了一篇ICLR 2025杰出论文,然后12小时内独立复现核心实验。全程无人干预,18次commit,23张实验图表,跑通了。还干了一件事:连续工作24小时,147次benchmark提交、1959次工具调用,把CUDA内核的Hopper FP8硬件峰值利用率从7.6%优化到71.3%,9.4倍加速。
这已经不是"能写代码"了,这是"能独立完成一个工程项目"。产品级交付,不是demo。
再说原理:MSA稀疏注意力,凭什么1M上下文不炸
传统Transformer有个致命问题:注意力复杂度是O(n²)。上下文翻10倍,计算量翻100倍。所以别说100万token,20万token大部分模型就开始卡。
M3搞了一套自研的MSA(MiniMax Sparse Attention)。核心思路是"学霸划重点":不是每个token都关注所有token,先通过索引分支锁定关键内容,再用稀疏计算分支集中计算。效果很夸张——100万token规模下,单token计算量只有上一代的1/20。Prefill加速9.7倍,Decoding加速15.6倍。
这意味着你可以把整个代码仓库、整篇论文、整本技术文档一次性扔进去,它能完整理解而不遗漏上下文。196B总参数但是MoE架构只激活11B,单张A100-80G就能跑。这点对想本地部署的开发者很友好。
怎么用:API价格+两种模式
M3提供thinking和non-thinking两种模式。复杂推理用thinking模式(延迟高但更准),代码补全和简单问答用non-thinking(2秒内响应)。价格上,标准模式输入2.1元/百万tokens、输出8.4元/百万tokens,优先模式翻倍。目前7天限时五折。对比GPT-5.5约15美元/60美元(百万tokens),便宜了一个数量级。
一个值得注意的变化:API支持操作电脑桌面(Computer Use),可以跨应用、跨文件、跨系统操作。原生多模态支持图片和视频输入,从第零步开始多模态训练,视觉和文本语义空间高度对齐。OmniDocBench得分超过Gemini 3.1 Pro。
还有个重要的:即将开源。模型权重、训练脚本、训练数据集会全部放出来。开发者可以在自己数据上继续训练、构建专有模型。
我的判断:国产Agent模型的拐点
M3跟之前国产模型的区别在哪?之前大多数国产模型在"会聊天"层面卷,M3直接跳到"会干活"层面。能独立复现论文实验、能24小时无人干预优化CUDA内核、能操作电脑桌面——这种Agent能力的突破,比多考几分意义大得多。
当然问题也有。部分视觉QA任务跟头部模型还有差距,Computer Use的完成度还不够高。但方向对了。当国产模型能在编程和Agent这件事上正面对标Opus和GPT-5.5,说明差距不只在缩小——是某些赛道已经换位了。
M3不搞虚的,能跑、能干、能开源。这才是开发者和创业者真正需要的东西。

你真的懂什么叫Agent吗?不是会回答问题的AI,是能自己定计划、调工具、纠错、交付结果的系统。M3独立复现论文这件事,比任何跑分都说明问题。
所以以后不是我教AI写代码,是AI写完代码问我"你还有什么事吗"??
作为小白,我就记住一句话:1M上下文意味着可以把整个代码库扔进去让它理解。这个确实比之前用过的任何模型都强……
代码说话。SWE-Bench Pro超过GPT-5.5,开源可本地部署——这两点对做企业应用是关键。数据不出内网,模型可控,成本透明。
M3能24小时自己调CUDA内核……我调个Prompt要反复20遍,它调代码1959次自己跑通了。我不配叫Prompt工程师了?