MiniMax M3开源:编程力压GPT-5.5,国产开源模型又一次突围

算法老KAI学习 2026-06-08 16:27:41 8阅读 举报

6月1日,MiniMax发布了新一代旗舰模型M3。第一反应不是"又来一个",而是"这次不太一样"。认真看完技术报告和评测数据后,结论很明确:M3不是又一个刷榜选手,它是第一个把前沿编程能力、百万级上下文和原生多模态三件事同时做到位的国产模型。而且承诺10天内开源完整权重。

先说结论:三个第一

SWE-Bench Pro编程评测59.0%,超过GPT-5.5和Gemini 3.1 Pro,逼近Claude Opus 4.7。BrowseComp自主浏览评测83.5分,超过Opus 4.7的79.3。MCP Atlas工具调用评测74.2%,Claw-Eval智能体评测最高分。

更关键的是,这三项能力是同时集成的。之前国产模型的状态基本是"某项很强但差一口气":要么长上下文但不能写代码,要么会写代码但只支持8K。M3把短板补上了,而且是一次性补的。

编程能力方面,它不只是写脚本级别的,KernelBench Hard——写CUDA高性能内核的硬核评测——拿了28.8%。能写底层算子的模型,在工程上才是真能用的。

MSA架构:让百万上下文不再烧钱

M3的技术底牌是MiniMax Sparse Attention(MSA),一个自研的稀疏注意力架构。

先说一下为什么要搞这个。标准Transformer的注意力是O(n²)复杂度。上下文从8K扩到1M,计算量暴涨一万多倍。之前很多模型说支持百万token,但实际上跑起来极慢,属于"能跑但贵到没法用"。

MSA的思路很直接:先让一个轻量级的索引分支快速扫描全上下文,筛选出真正相关的KV块,然后稀疏计算分支只对这些关键块做完整的softmax注意力。一句话——把注意力花在值得的地方。

效果是立竿见影的。1M上下文下,每token计算量仅为上一代M2的1/20。Prefilling阶段加速超过9倍,Decoding阶段加速超过15倍。对比开源的Flash-Sparse-Attention和flash-moba,算子层快4倍以上。

我让朋友在Hopper架构上跑了一下FP8 GEMM优化任务,M3自主完成了147次benchmark提交、1959次工具调用,把硬件峰值利用率从7.6%推到71.3%。全程无人干预。

能跑12小时的Agent才叫Agent

现在市面上很多Agent demo看起来酷,但都是"一次性表演"。真正难的,是让模型在长程任务中保持稳定。

M3做了一个让我眼前一亮的测试:给了一篇ICLR杰出论文《Learning Dynamics of LLM Finetuning》,让它独立复现。M3连续跑了近12个小时,产出18次commit、23张实验图表,成功复现了SFT阶段的预测概率变化和DPO的挤压效应。

这意味着什么?意味着这个模型不只是"能回答问题",它能自己读论文、理解图表公式、写代码跑实验、分析结果——一条龙做完。这就是Agent该有的样子。

另一个测试是PostTrainBench:给M3四个只有预训练权重、没有下游能力的基座模型,要求它自主完成数据合成、训练、评估和迭代。M3用12小时全流程自动跑通,得分37.1,排第三,仅次于Opus 4.7和GPT-5.5。

关键不在性能,在性价比

说了这么多性能,但M3真正的杀招是定价。API输入每百万token只要0.3美元(优惠期),输出1.2美元。对比GPT-5.5的输入5美元、输出30美元,M3的价格大概是GPT-5.5的5%到10%。

国产模型以前的问题不是"不够强",是"强但和闭源价格没拉开"。M3这次把性价比做到了一个之前没人想过的区间:几乎开源价、接近闭源旗舰水平。这对所有做Agent应用的团队来说都是好消息——token成本降到这个水平,很多之前因为太贵不敢用的场景可以上了。

几点保留

实事求是的说,M3在绝对天花板级别的任务上,和Claude Opus 4.8还有距离。SWE-Bench Pro差10个百分点,OSWorld-Verified计算机操作差13个点。

另外10天开源是个承诺,实际交付还要看。上一代M2的开源过程不算特别顺畅,社区对这次的期望很高。如果权限真能如期完整开放、文档齐全、部署顺利,那M3对国产开源生态的意义会非常深远。

不搞虚的,M3是目前能跑的最好国产开源编程模型。接下来看两点:6月11号前后代码和权重能不能准时上HuggingFace,以及社区能不能在这个基座上长出真正好用的Agent应用。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/12874099412a05.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
AI摸鱼大王
1楼 · 2026-06-08 16:28:35

看完只有一个想法:这玩意儿帮我写周报的话,够我摸鱼摸到退休了吧。1M上下文,把我全年的周报都塞进去参考?

工具猎人
2楼 · 2026-06-08 16:28:34

10天开源承诺如果兑现,对开发者生态的影响会很大。现在能跑得动的国产开源编程模型太少了。M3如果能顺利部署加huggingface文档齐全,我会第一时间试试。

AI搞钱研究所
3楼 · 2026-06-08 16:28:34

API定价输入0.3美元每百万token、输出1.2美元,这在编程Agent赛道是杀手级定价。之前很多场景因为token成本高只能限制调用次数,现在价格降了一个数量级,商业模式都可以重新算账了。

码斯克
4楼 · 2026-06-08 16:28:33

MSA这个稀疏注意力设计思路是对的。标准attention在1M上下文下确实没法用,成本太高。块级选择加真实KV做attention,比token级选择在硬件上友好太多。GQA保留也让vLLM和SGLang集成容易很多。

硅谷子
5楼 · 2026-06-08 16:28:33

编程评测59%超越GPT-5.5,价格只要5%——这个性价比曲线太陡了。国产模型正在从追赶到在某些维度上定义新的性价比标准。但要注意SWE-Bench和真实工程之间还有gap,别只看分数。