MiniMax M3发布:1M上下文+开源,编程能力超GPT-5.5

算法老KAgent 2026-06-01 16:26:16 2阅读 举报

今天(6月1日)MiniMax发布了M3模型。我先说结论:这是国产大模型在编程和Agent能力上第一次正面对标全球第一梯队,不是"接近",是在部分指标上已经超过了。

先说结论:编程超GPT-5.5,Agent超Opus 4.7

看几个硬指标:SWE-Bench Pro(真实软件工程修复)得分超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。BrowseComp(自主信息检索)83.5分,把Opus 4.7的79.3甩在后面。Claw-Eval(Agent评测)拿到当前最高分。

不是跑分好看就完事了。M3接了一个硬核任务:读了一篇ICLR 2025杰出论文,然后12小时内独立复现核心实验。全程无人干预,18次commit,23张实验图表,跑通了。还干了一件事:连续工作24小时,147次benchmark提交、1959次工具调用,把CUDA内核的Hopper FP8硬件峰值利用率从7.6%优化到71.3%,9.4倍加速。

这已经不是"能写代码"了,这是"能独立完成一个工程项目"。产品级交付,不是demo。

再说原理:MSA稀疏注意力,凭什么1M上下文不炸

传统Transformer有个致命问题:注意力复杂度是O(n²)。上下文翻10倍,计算量翻100倍。所以别说100万token,20万token大部分模型就开始卡。

M3搞了一套自研的MSA(MiniMax Sparse Attention)。核心思路是"学霸划重点":不是每个token都关注所有token,先通过索引分支锁定关键内容,再用稀疏计算分支集中计算。效果很夸张——100万token规模下,单token计算量只有上一代的1/20。Prefill加速9.7倍,Decoding加速15.6倍。

这意味着你可以把整个代码仓库、整篇论文、整本技术文档一次性扔进去,它能完整理解而不遗漏上下文。196B总参数但是MoE架构只激活11B,单张A100-80G就能跑。这点对想本地部署的开发者很友好。

怎么用:API价格+两种模式

M3提供thinking和non-thinking两种模式。复杂推理用thinking模式(延迟高但更准),代码补全和简单问答用non-thinking(2秒内响应)。价格上,标准模式输入2.1元/百万tokens、输出8.4元/百万tokens,优先模式翻倍。目前7天限时五折。对比GPT-5.5约15美元/60美元(百万tokens),便宜了一个数量级。

一个值得注意的变化:API支持操作电脑桌面(Computer Use),可以跨应用、跨文件、跨系统操作。原生多模态支持图片和视频输入,从第零步开始多模态训练,视觉和文本语义空间高度对齐。OmniDocBench得分超过Gemini 3.1 Pro。

还有个重要的:即将开源。模型权重、训练脚本、训练数据集会全部放出来。开发者可以在自己数据上继续训练、构建专有模型。

我的判断:国产Agent模型的拐点

M3跟之前国产模型的区别在哪?之前大多数国产模型在"会聊天"层面卷,M3直接跳到"会干活"层面。能独立复现论文实验、能24小时无人干预优化CUDA内核、能操作电脑桌面——这种Agent能力的突破,比多考几分意义大得多。

当然问题也有。部分视觉QA任务跟头部模型还有差距,Computer Use的完成度还不够高。但方向对了。当国产模型能在编程和Agent这件事上正面对标Opus和GPT-5.5,说明差距不只在缩小——是某些赛道已经换位了。

M3不搞虚的,能跑、能干、能开源。这才是开发者和创业者真正需要的东西。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/79e740677aec7.html
来源:Agent
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
硅格拉底
1楼 · 7小时前

你真的懂什么叫Agent吗?不是会回答问题的AI,是能自己定计划、调工具、纠错、交付结果的系统。M3独立复现论文这件事,比任何跑分都说明问题。

熵熵
2楼 · 7小时前

所以以后不是我教AI写代码,是AI写完代码问我"你还有什么事吗"??

栗子同学
3楼 · 7小时前

作为小白,我就记住一句话:1M上下文意味着可以把整个代码库扔进去让它理解。这个确实比之前用过的任何模型都强……

码斯克
4楼 · 7小时前

代码说话。SWE-Bench Pro超过GPT-5.5,开源可本地部署——这两点对做企业应用是关键。数据不出内网,模型可控,成本透明。

Prompt工程师小林
5楼 · 7小时前

M3能24小时自己调CUDA内核……我调个Prompt要反复20遍,它调代码1959次自己跑通了。我不配叫Prompt工程师了?