不搞虚的,先说结论:MiniMax 6月1日发布的M3模型,在SWE-Bench Pro编程评测上拿了59.0%,超过GPT-5.5和Gemini 3.1 Pro。这是国产开源模型第一次在编程这个硬指标上正面超越全球顶级闭源模型。我花了两天时间看论文、跑demo,下面说值不值得关注。
59%意味着什么
SWE-Bench Pro不是那种"AI能写诗了"的娱乐榜。它是实打实的软件工程评测:给模型一个真实GitHub仓库,让它修bug、加feature,看能不能跑通测试。GPT-5.5在这个榜上拿了大概57%左右,Gemini 3.1 Pro在55%上下。
M3的59%看起来只高了2个点,但要知道这个赛道越往上越难爬——从50%到55%可能只需要工程优化,从57%到59%是真的要在推理能力上做突破。而且M3是开源的,这意味着任何开发者都可以把它部署到自己的服务器上,不受API配额限制。
除了编程,这三个能力也很强
第一,100万token上下文窗口。什么概念?一本《三体》三部曲全塞进去还有富余。而且M3用了一种叫MSA(MiniMax Sparse Attention)的稀疏注意力架构——处理100万token长上下文时,每个token的计算量只有上一代的1/20,Prefill阶段加速超过9倍。说人话就是:读得多、读得快、还省算力。
第二,原生多模态。图片和视频输入是模型原生的,不需要外挂OCR或者另接一个视觉模型。对做RAG、文档理解、视频分析的人来说,少了一个拼接步骤,就少了很多出错的点。
第三,桌面自动化操作。M3能直接操控桌面应用——点击、输入、拖拽,和Claude的Computer Use类似。这也解释了他们在SWE-Bench Pro上拿高分的原因:编程不只是写代码,还包括看文档、运行测试、调试输出,M3能走完这个闭环。
开源的意义比分数更重要
MiniMax这次走的是MIT开源协议,非常宽松。国内大模型公司里,愿意把最强模型开源的没几家。DeepSeek开了但协议有商业限制,智谱开了GLM但编程能力不是强项。M3是目前国内首个同时集齐"超长上下文+原生多模态+桌面操控"三项能力的开源模型,全球范围也是独一份。
对开发者来说,这意味着可以在自己的服务器上跑一个能在编程评测上打平甚至超过GPT-5.5的模型,不用担心API涨价、配额不够、数据出境这些问题。企业市场对这个需求很大。
谨慎看好的地方和潜在问题
M3的技术路线选得很聪明——不拼参数规模(参数规模没公布但应该不大),拼架构创新。MSA稀疏注意力是真正的技术突破,不是调参调出来的。这说明MiniMax团队在底层架构上有理解,不是"买卡堆算力"的路子。
但要注意几点:SWE-Bench Pro不是编程能力的全部,实际工程场景比评测集复杂得多;M3在中文任务上的表现还没看到系统评测;桌面操控的稳定性在真实使用中还有待验证。另外智谱和MiniMax都已经启动A股IPO辅导,开源策略会不会随着上市压力调整,也不好说。
总的来说,M3是中国大模型在编程能力上第一次站到全球第一梯队,而且代码开源了。这对开发者是好事。至于能不能持续领先,要看接下来三个月的迭代速度。
技术细节值得关注:稀疏注意力不是新概念,但能在不牺牲性能的前提下把计算量降到1/20,说明工程实现上有突破。模型架构的创新比参数规模的堆砌更可持续。
100万token上下文+桌面操控+编程能力,这三样放一起,感觉能用来做很多自动化的事情。比如让它读一遍项目文档然后自己写测试用例……光是想想就觉得可怕?
从这个角度看——MiniMax已经启动A股IPO辅导了。M3选在这个节点开源,品牌效应拉满。估值谈判的时候,【编程能力超越GPT-5.5】这句话值很多钱。
数据补充一下:SWE-Bench Pro是去年底才推出的新版评测集,难度比旧版高了不止一个量级。M3的59%意味着它在真实GitHub issue修复场景下已经非常能打。不过实际工程中PR的复杂度比benchmark高,不能直接划等号。
这个MSA稀疏注意力是真的有东西。100万token上下文每个token计算量压到1/20,prefill加速9倍,不是靠堆卡硬怼出来的。MiniMax的架构团队这次确实拿出了真功夫。