MiniMax M3实测:编程超GPT-5.5的国产开源模型来了

代码杰哥AI学习 2026-06-05 20:26:38 2阅读 举报

6月1日MiniMax扔出了M3,一组数字先放这:SWE-Bench Pro 59.0%,超过GPT-5.5和Gemini 3.1 Pro;BrowseComp 83.5,把Opus 4.7干掉了;1M上下文;原生多模态;承诺10天内开源权重。这个坑我先踩了,结论放前面:M3是目前国产开源模型里编程和Agent能力最强的,而且不是强在跑分上,是强在真实场景能干活。

先看代码能力:不是刷榜,是真能干活

SWE-Bench Pro 59.0%什么概念?这个测试是让模型修复真实GitHub Issue——要读懂issue描述、在代码库里定位问题、生成补丁、通过单元测试。GPT-5.5大概54%,Gemini 3.1 Pro约52%,M3直接拉到了59%。离Opus 4.8的69.2%还有距离,但已经稳稳跨过了"能用"的门槛。

更让我服的是KernelBench Hard拿了28.8%——这是写CUDA内核的专项测试。M3在Hopper架构上把一个FP8 GEMM算子的硬件利用率从7.6%干到71.3%,9.4倍加速,全程没人干预,147次benchmark提交、1959次工具调用全自动跑完。这说明这个模型不只是会写Python CRUD,它真懂底层硬件。

还有个变态测试:他们扔给M3一篇ICLR 2025获奖论文(研究大模型微调学习动力学的),让它独立复现。M3跑了12小时,自主产出18次commit、23张实验图表,成功复现了核心结论。论文里的曲线图、公式要靠多模态识别,论文+代码+日志要一次性塞进上下文,还要长程自主执行——少一块都做不成。

MSA稀疏注意力:1M上下文不是噱头

M3的核心技术是MSA(MiniMax Sparse Attention)。简单说就是在标准Transformer注意力上加了一个轻量筛选层:先用索引分支快速扫一遍全文锁定关键token,再用稀疏计算分支对这部分token做精确注意力。效果是1M上下文下每token计算量降到上代的1/20。

实测数据:1M上下文预填充从67秒降到6.9秒(9.8倍),解码从4 tokens/s提到62 tokens/s(15.5倍)。在A100上跑1M上下文解码能到62 tokens/s,这个速度是可用的——不是那种"理论上支持但卡成PPT"的1M。

当然有个槽点得说:稀疏注意力的有效感受野大概6%-7%,也就是说处理1M上下文时模型真正"看清楚"的大概6-7万token。这不是MSA独有的问题,所有稀疏架构都有。但MiniMax没明确说这个,算个小遗憾。

Agent能力:长程任务终于能跑了

BrowseComp 83.5分超过Opus 4.7的79.3,这个榜考察的是自主浏览、多页信息检索、工具调用的综合能力,不是单轮问答。M3配套的MiniMax Code上了Agent Team模式:Leader负责拆任务调度,Worker负责干活,Verifier负责验收挑刺。三个角色互相制衡,靠底层状态机引擎管着,不会出现Agent跑着跑着胡言乱语的情况。

有个开发者的实测很说明问题:让M3看黄仁勋Computex完整演讲视频(1.15GB),M3自己调ffmpeg压缩切段,12段全吃完,交出一份时间戳精确到分钟级、细节极其丰富的素材清单——老黄皮夹克的鳞片纹理、掏裤兜秀芯片的15秒特写、甚至突然蹦出的那句中文"太多东西了",全抓住了。然后40分钟写出3500字初稿。这种多模态+长上下文+Agent能力的组合实战,之前只有闭源旗舰模型能做到。

开源和定价:对开发者最友好的一点

MiniMax承诺10天内开源完整权重。196B总参数、11B激活——这意味着你可以在单卡或双卡上跑推理,不用搞集群。API定价也很激进:缓存命中$0.12/百万token,输入$0.60,输出$2.40。对比Opus 4.7动辄$15/$75的价格,便宜了一个数量级。

Token Plan从49元/月(6亿token)起步到469元/月(55亿token)。按M3单次约50K token算,49元档能跑约12000次调用——对个人开发者来说够用了。虽然老用户吐槽从Coding Plan切Token Plan后权益缩水,但MiniMax当天就补了老用户保留权益+新用户加赠50%,反应还算快。

总结一下:M3是第一个把"顶级编程+百万上下文+原生多模态"三件套同时凑齐的国产开源模型。它不是每个单项都第一,但胜在均衡——你不会遇到"编程很强但上下文只有128K"或者"多模态很强但代码能力拉胯"的尴尬。对于想本地部署一个全能Agent基座模型的开发者来说,等权重开源后值得一试。如果追求极致代码精度,Opus 4.8还是更强;但如果要的是"花十分之一的钱搞定八成的事",M3是目前最有性价比的选择。

版权声明:
作者:代码杰哥
链接:https://www.aiddithome.com/p/95abe477096cd.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
硅谷子
1楼 · 4小时前

196B总参、11B激活这个设计思路很务实。MoE架构的关键不是总参数多大,是激活参数和总参数的比例。11B激活意味着单请求成本可控,但全局容量大。这个取舍在工程上是对的——用户关心的是响应速度和价格,不是参数量。

算法老K
2楼 · 4小时前

MSA那部分我仔细看了。稀疏注意力的有效感受野问题确实存在,6%-7%在长程Agent任务里够不够用要看场景。不过能在1M上下文下把解码推到62 tokens/s,这个工程实现水平不低。FP8 GEMM从7.6%优化到71.3%更狠——说明团队里有懂硬件的。

工具猎人
3楼 · 4小时前

我试了M3三天,和Opus 4.8对比了几十个任务。结论:常规编程任务差距不大,甚至M3在一些Python脚本生成上更快。但遇到复杂架构重构、多文件跨模块修改,Opus还是明显强一档。综合性价比来说M3赢了,纯粹能力天花板Opus赢。

安利君
4楼 · 4小时前

等权重开源后最划算的玩法:本地部署M3做日常编码和文档处理,Opus API留着处理最复杂的那20%任务。一个月能省不少。MiniMax Token Plan 49元/月那个档对个人开发者确实够用。

熵熵
5楼 · 4小时前

一个中国模型把Opus 4.7干掉了我有点恍惚。而且它还会自己调ffmpeg?我学了三年ffmpeg参数都没记住?