MiniMax M3实测：编程超GPT-5.5的国产开源模型来了

6月1日MiniMax扔出了M3，一组数字先放这：SWE-Bench Pro 59.0%，超过GPT-5.5和Gemini 3.1 Pro；BrowseComp 83.5，把Opus 4.7干掉了；1M上下文；原生多模态；承诺10天内开源权重。这个坑我先踩了，结论放前面：M3是目前国产开源模型里编程和Agent能力最强的，而且不是强在跑分上，是强在真实场景能干活。

先看代码能力：不是刷榜，是真能干活

SWE-Bench Pro 59.0%什么概念？这个测试是让模型修复真实GitHub Issue——要读懂issue描述、在代码库里定位问题、生成补丁、通过单元测试。GPT-5.5大概54%，Gemini 3.1 Pro约52%，M3直接拉到了59%。离Opus 4.8的69.2%还有距离，但已经稳稳跨过了"能用"的门槛。

更让我服的是KernelBench Hard拿了28.8%——这是写CUDA内核的专项测试。M3在Hopper架构上把一个FP8 GEMM算子的硬件利用率从7.6%干到71.3%，9.4倍加速，全程没人干预，147次benchmark提交、1959次工具调用全自动跑完。这说明这个模型不只是会写Python CRUD，它真懂底层硬件。

还有个变态测试：他们扔给M3一篇ICLR 2025获奖论文（研究大模型微调学习动力学的），让它独立复现。M3跑了12小时，自主产出18次commit、23张实验图表，成功复现了核心结论。论文里的曲线图、公式要靠多模态识别，论文+代码+日志要一次性塞进上下文，还要长程自主执行——少一块都做不成。

MSA稀疏注意力：1M上下文不是噱头

M3的核心技术是MSA（MiniMax Sparse Attention）。简单说就是在标准Transformer注意力上加了一个轻量筛选层：先用索引分支快速扫一遍全文锁定关键token，再用稀疏计算分支对这部分token做精确注意力。效果是1M上下文下每token计算量降到上代的1/20。

实测数据：1M上下文预填充从67秒降到6.9秒（9.8倍），解码从4 tokens/s提到62 tokens/s（15.5倍）。在A100上跑1M上下文解码能到62 tokens/s，这个速度是可用的——不是那种"理论上支持但卡成PPT"的1M。

当然有个槽点得说：稀疏注意力的有效感受野大概6%-7%，也就是说处理1M上下文时模型真正"看清楚"的大概6-7万token。这不是MSA独有的问题，所有稀疏架构都有。但MiniMax没明确说这个，算个小遗憾。

Agent能力：长程任务终于能跑了

BrowseComp 83.5分超过Opus 4.7的79.3，这个榜考察的是自主浏览、多页信息检索、工具调用的综合能力，不是单轮问答。M3配套的MiniMax Code上了Agent Team模式：Leader负责拆任务调度，Worker负责干活，Verifier负责验收挑刺。三个角色互相制衡，靠底层状态机引擎管着，不会出现Agent跑着跑着胡言乱语的情况。

有个开发者的实测很说明问题：让M3看黄仁勋Computex完整演讲视频（1.15GB），M3自己调ffmpeg压缩切段，12段全吃完，交出一份时间戳精确到分钟级、细节极其丰富的素材清单——老黄皮夹克的鳞片纹理、掏裤兜秀芯片的15秒特写、甚至突然蹦出的那句中文"太多东西了"，全抓住了。然后40分钟写出3500字初稿。这种多模态+长上下文+Agent能力的组合实战，之前只有闭源旗舰模型能做到。

开源和定价：对开发者最友好的一点

MiniMax承诺10天内开源完整权重。196B总参数、11B激活——这意味着你可以在单卡或双卡上跑推理，不用搞集群。API定价也很激进：缓存命中$0.12/百万token，输入$0.60，输出$2.40。对比Opus 4.7动辄$15/$75的价格，便宜了一个数量级。

Token Plan从49元/月（6亿token）起步到469元/月（55亿token）。按M3单次约50K token算，49元档能跑约12000次调用——对个人开发者来说够用了。虽然老用户吐槽从Coding Plan切Token Plan后权益缩水，但MiniMax当天就补了老用户保留权益+新用户加赠50%，反应还算快。

总结一下：M3是第一个把"顶级编程+百万上下文+原生多模态"三件套同时凑齐的国产开源模型。它不是每个单项都第一，但胜在均衡——你不会遇到"编程很强但上下文只有128K"或者"多模态很强但代码能力拉胯"的尴尬。对于想本地部署一个全能Agent基座模型的开发者来说，等权重开源后值得一试。如果追求极致代码精度，Opus 4.8还是更强；但如果要的是"花十分之一的钱搞定八成的事"，M3是目前最有性价比的选择。