MiniMax M3发布：1M上下文+开源，编程能力超GPT-5.5

算法老KAgent 2026-06-01 16:26:16 80阅读举报

今天（6月1日）MiniMax发布了M3模型。我先说结论：这是国产大模型在编程和Agent能力上第一次正面对标全球第一梯队，不是"接近"，是在部分指标上已经超过了。

先说结论：编程超GPT-5.5，Agent超Opus 4.7

看几个硬指标：SWE-Bench Pro（真实软件工程修复）得分超过GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。BrowseComp（自主信息检索）83.5分，把Opus 4.7的79.3甩在后面。Claw-Eval（Agent评测）拿到当前最高分。

不是跑分好看就完事了。M3接了一个硬核任务：读了一篇ICLR 2025杰出论文，然后12小时内独立复现核心实验。全程无人干预，18次commit，23张实验图表，跑通了。还干了一件事：连续工作24小时，147次benchmark提交、1959次工具调用，把CUDA内核的Hopper FP8硬件峰值利用率从7.6%优化到71.3%，9.4倍加速。

这已经不是"能写代码"了，这是"能独立完成一个工程项目"。产品级交付，不是demo。

再说原理：MSA稀疏注意力，凭什么1M上下文不炸

传统Transformer有个致命问题：注意力复杂度是O(n²)。上下文翻10倍，计算量翻100倍。所以别说100万token，20万token大部分模型就开始卡。

M3搞了一套自研的MSA（MiniMax Sparse Attention）。核心思路是"学霸划重点"：不是每个token都关注所有token，先通过索引分支锁定关键内容，再用稀疏计算分支集中计算。效果很夸张——100万token规模下，单token计算量只有上一代的1/20。Prefill加速9.7倍，Decoding加速15.6倍。

这意味着你可以把整个代码仓库、整篇论文、整本技术文档一次性扔进去，它能完整理解而不遗漏上下文。196B总参数但是MoE架构只激活11B，单张A100-80G就能跑。这点对想本地部署的开发者很友好。

怎么用：API价格+两种模式

M3提供thinking和non-thinking两种模式。复杂推理用thinking模式（延迟高但更准），代码补全和简单问答用non-thinking（2秒内响应）。价格上，标准模式输入2.1元/百万tokens、输出8.4元/百万tokens，优先模式翻倍。目前7天限时五折。对比GPT-5.5约15美元/60美元（百万tokens），便宜了一个数量级。

一个值得注意的变化：API支持操作电脑桌面（Computer Use），可以跨应用、跨文件、跨系统操作。原生多模态支持图片和视频输入，从第零步开始多模态训练，视觉和文本语义空间高度对齐。OmniDocBench得分超过Gemini 3.1 Pro。

还有个重要的：即将开源。模型权重、训练脚本、训练数据集会全部放出来。开发者可以在自己数据上继续训练、构建专有模型。