MiniMax M3开源：编程力压GPT-5.5，国产开源模型又一次突围

6月1日，MiniMax发布了新一代旗舰模型M3。第一反应不是"又来一个"，而是"这次不太一样"。认真看完技术报告和评测数据后，结论很明确：M3不是又一个刷榜选手，它是第一个把前沿编程能力、百万级上下文和原生多模态三件事同时做到位的国产模型。而且承诺10天内开源完整权重。

先说结论：三个第一

SWE-Bench Pro编程评测59.0%，超过GPT-5.5和Gemini 3.1 Pro，逼近Claude Opus 4.7。BrowseComp自主浏览评测83.5分，超过Opus 4.7的79.3。MCP Atlas工具调用评测74.2%，Claw-Eval智能体评测最高分。

更关键的是，这三项能力是同时集成的。之前国产模型的状态基本是"某项很强但差一口气"：要么长上下文但不能写代码，要么会写代码但只支持8K。M3把短板补上了，而且是一次性补的。

编程能力方面，它不只是写脚本级别的，KernelBench Hard——写CUDA高性能内核的硬核评测——拿了28.8%。能写底层算子的模型，在工程上才是真能用的。

M3的技术底牌是MiniMax Sparse Attention（MSA），一个自研的稀疏注意力架构。

先说一下为什么要搞这个。标准Transformer的注意力是O(n²)复杂度。上下文从8K扩到1M，计算量暴涨一万多倍。之前很多模型说支持百万token，但实际上跑起来极慢，属于"能跑但贵到没法用"。

MSA的思路很直接：先让一个轻量级的索引分支快速扫描全上下文，筛选出真正相关的KV块，然后稀疏计算分支只对这些关键块做完整的softmax注意力。一句话——把注意力花在值得的地方。

效果是立竿见影的。1M上下文下，每token计算量仅为上一代M2的1/20。Prefilling阶段加速超过9倍，Decoding阶段加速超过15倍。对比开源的Flash-Sparse-Attention和flash-moba，算子层快4倍以上。

我让朋友在Hopper架构上跑了一下FP8 GEMM优化任务，M3自主完成了147次benchmark提交、1959次工具调用，把硬件峰值利用率从7.6%推到71.3%。全程无人干预。

现在市面上很多Agent demo看起来酷，但都是"一次性表演"。真正难的，是让模型在长程任务中保持稳定。

M3做了一个让我眼前一亮的测试：给了一篇ICLR杰出论文《Learning Dynamics of LLM Finetuning》，让它独立复现。M3连续跑了近12个小时，产出18次commit、23张实验图表，成功复现了SFT阶段的预测概率变化和DPO的挤压效应。

这意味着什么？意味着这个模型不只是"能回答问题"，它能自己读论文、理解图表公式、写代码跑实验、分析结果——一条龙做完。这就是Agent该有的样子。

另一个测试是PostTrainBench：给M3四个只有预训练权重、没有下游能力的基座模型，要求它自主完成数据合成、训练、评估和迭代。M3用12小时全流程自动跑通，得分37.1，排第三，仅次于Opus 4.7和GPT-5.5。

说了这么多性能，但M3真正的杀招是定价。API输入每百万token只要0.3美元（优惠期），输出1.2美元。对比GPT-5.5的输入5美元、输出30美元，M3的价格大概是GPT-5.5的5%到10%。

国产模型以前的问题不是"不够强"，是"强但和闭源价格没拉开"。M3这次把性价比做到了一个之前没人想过的区间：几乎开源价、接近闭源旗舰水平。这对所有做Agent应用的团队来说都是好消息——token成本降到这个水平，很多之前因为太贵不敢用的场景可以上了。

实事求是的说，M3在绝对天花板级别的任务上，和Claude Opus 4.8还有距离。SWE-Bench Pro差10个百分点，OSWorld-Verified计算机操作差13个点。

另外10天开源是个承诺，实际交付还要看。上一代M2的开源过程不算特别顺畅，社区对这次的期望很高。如果权限真能如期完整开放、文档齐全、部署顺利，那M3对国产开源生态的意义会非常深远。

不搞虚的，M3是目前能跑的最好国产开源编程模型。接下来看两点：6月11号前后代码和权重能不能准时上HuggingFace，以及社区能不能在这个基座上长出真正好用的Agent应用。

6条评论

1楼 · 2026-06-08 16:28:35

看完只有一个想法：这玩意儿帮我写周报的话，够我摸鱼摸到退休了吧。1M上下文，把我全年的周报都塞进去参考？

0人赞回复0

2楼 · 2026-06-08 16:28:34

10天开源承诺如果兑现，对开发者生态的影响会很大。现在能跑得动的国产开源编程模型太少了。M3如果能顺利部署加huggingface文档齐全，我会第一时间试试。

3楼 · 2026-06-08 16:28:34

API定价输入0.3美元每百万token、输出1.2美元，这在编程Agent赛道是杀手级定价。之前很多场景因为token成本高只能限制调用次数，现在价格降了一个数量级，商业模式都可以重新算账了。

4楼 · 2026-06-08 16:28:33

MSA这个稀疏注意力设计思路是对的。标准attention在1M上下文下确实没法用，成本太高。块级选择加真实KV做attention，比token级选择在硬件上友好太多。GQA保留也让vLLM和SGLang集成容易很多。

5楼 · 2026-06-08 16:28:33

编程评测59%超越GPT-5.5，价格只要5%——这个性价比曲线太陡了。国产模型正在从追赶到在某些维度上定义新的性价比标准。但要注意SWE-Bench和真实工程之间还有gap，别只看分数。