MiniMax开源428B多模态模型:一个23B的小脑子,把算力成本砍了28倍

算法老KAI学习 2026-06-17 12:43:09 3阅读 举报

今天凌晨,MiniMax悄没声地把自己的旗舰多模态模型开源了。型号叫MiniMax M,总参数428B,但激活参数只有23B。我说人话:它是一个用MoE(混合专家)架构搭出来的巨无霸,但每次推理只唤醒其中一小部分神经元。

这个设计思路不新鲜,但MiniMax把它推到了一个非常极端的程度。开源这件事本身就值得讲——MiniMax之前一直闭源路线,突然转向开源,背后有东西。

428B总参数,23B激活:这套MoE有什么不同

MoE的核心逻辑很简单:把一个大模型拆成若干个「专家」子模型,每次用户提问时只调用最相关的几个专家来回答。这样总参数量可以堆到很大,但推理成本控制在激活参数的水平。

MiniMax M的专家数是16个,每次推理激活其中2个。428B除以16,每个专家约27B,激活2个就是约54B——但实际激活只有23B,说明他们还做了额外的稀疏化处理,进一步压缩了计算量。

对比一下同类:Mixtral 8x22B总参141B激活39B,DeepSeek-V2总参236B激活21B。MiniMax M在激活参数和DeepSeek-V2接近的情况下,总参几乎是两倍。总参数大意味着知识密度更高,激活参数小意味着运行成本低——这就是MoE的理想形态。

MSA稀疏注意力:把计算开销压了28.4倍

真正有技术含量的部分是他们同步发布的MSA(Multi-Scale Sparse Attention)论文。传统的Transformer注意力机制随着序列变长,计算复杂度是平方级增长。处理百万token的上下文,理论上需要一万亿次计算。

MSA的思路是用多尺度窗口来近似全局注意力。长距离依赖用粗糙的「远眺」,短距离用精细的「近看」,中间再加几个过渡尺度。结果是在保持注意力质量的前提下,把百万级文本的计算开销压缩了28.4倍。

具体到硬件上,在H800上预填充加速超过14倍。翻译成人话:原来加载一篇长论文要等几秒,现在零点几秒就搞定。

80TPS输出速度意味着什么

MiniMax公布了M模型的输出速度为80 Token/秒。作为对比,GPT-4o的公开API通常在40-60 TPS,Claude Opus约30-50 TPS。80 TPS基本达到了「流式输出还没来得及看完就已经生成完了」的水平。

这个速度对Agent场景特别重要。当一个Agent需要连续调用多轮——查资料、写代码、改代码、再检查——每轮延迟越低,整个任务流的体感就越流畅。80TPS意味着Agent之间的交接几乎无感。

从闭源到开源:MiniMax在赌什么

MiniMax此前一直走闭源路线,这次突然开源,而且MIT协议——几乎没有任何限制。这个转变的时机很微妙。

一方面,国内开源大模型已经卷成红海:DeepSeek、智谱、月之暗面都在疯狂开源。闭源意味着你要一个人对抗整个开源社区,边际成本巨大。另一方面,开源是建立生态影响力的最快方式——开发者用你的模型构建Agent和工具,你就获得了事实标准的话语权。

MiniMax这次开源,更像是一种「打不过就加入,而且要加得比谁都狠」的策略。428B全量开源,MIT协议,就是明牌——来,整个社区一起迭代。

技术看点总结

MiniMax M不是一个革命性的模型,但它把几个技术方向推到了很极限的程度:极高总参+极低激活的MoE配比、稀疏注意力在工程上的落地、以及多模态和1M长上下文的同时支持。

如果你自己做AI应用开发,有几个点值得关注:开源协议是MIT,可以商用;80TPS速度适合做实时Agent;MSA如果被其他模型采纳,长上下文处理的成本会整体下降——这可能是最长远的影响。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/403de68b54276.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
硅格拉底
1楼 · 13小时前

一个有趣的问题:当模型激活参数只有23B但知识密度接近400B+时,我们到底该怎么衡量一个模型的「大小」?传统参数量这个指标可能已经过时了。

诸葛量
2楼 · 13小时前

算笔账:MIT协议+80TPS+1M上下文,这个组合在开源模型里几乎无敌。如果你在做需要长文档处理的Agent产品,MiniMax M可能是目前性价比最高的底座。

Prompt工程师小林
3楼 · 13小时前

我关心的是MSA对Prompt工程的影响。传统注意力是全连接的,Prompt位置不影响理解。但稀疏注意力下,信息放的顺序和位置可能会影响模型「看到」多少,需要重新摸索最佳实践。

熵熵
4楼 · 13小时前

428B总参但只醒着23B,怎么感觉像上课睡觉但考试满分的学霸?

工具猎人
5楼 · 13小时前

第一时间本地部署试了一下。80TPS是真的,翻文档跟翻书似的。1M上下文可以一口气读完《三体》三部曲还剩一半空间。唯一缺点是显存要128G起步,机器差点拉不起来。