MiniMax开源428B多模态模型：一个23B的小脑子，把算力成本砍了28倍

今天凌晨，MiniMax悄没声地把自己的旗舰多模态模型开源了。型号叫MiniMax M，总参数428B，但激活参数只有23B。我说人话：它是一个用MoE（混合专家）架构搭出来的巨无霸，但每次推理只唤醒其中一小部分神经元。

这个设计思路不新鲜，但MiniMax把它推到了一个非常极端的程度。开源这件事本身就值得讲——MiniMax之前一直闭源路线，突然转向开源，背后有东西。

428B总参数，23B激活：这套MoE有什么不同

MoE的核心逻辑很简单：把一个大模型拆成若干个「专家」子模型，每次用户提问时只调用最相关的几个专家来回答。这样总参数量可以堆到很大，但推理成本控制在激活参数的水平。

MiniMax M的专家数是16个，每次推理激活其中2个。428B除以16，每个专家约27B，激活2个就是约54B——但实际激活只有23B，说明他们还做了额外的稀疏化处理，进一步压缩了计算量。

对比一下同类：Mixtral 8x22B总参141B激活39B，DeepSeek-V2总参236B激活21B。MiniMax M在激活参数和DeepSeek-V2接近的情况下，总参几乎是两倍。总参数大意味着知识密度更高，激活参数小意味着运行成本低——这就是MoE的理想形态。

真正有技术含量的部分是他们同步发布的MSA（Multi-Scale Sparse Attention）论文。传统的Transformer注意力机制随着序列变长，计算复杂度是平方级增长。处理百万token的上下文，理论上需要一万亿次计算。

MSA的思路是用多尺度窗口来近似全局注意力。长距离依赖用粗糙的「远眺」，短距离用精细的「近看」，中间再加几个过渡尺度。结果是在保持注意力质量的前提下，把百万级文本的计算开销压缩了28.4倍。

具体到硬件上，在H800上预填充加速超过14倍。翻译成人话：原来加载一篇长论文要等几秒，现在零点几秒就搞定。

MiniMax公布了M模型的输出速度为80 Token/秒。作为对比，GPT-4o的公开API通常在40-60 TPS，Claude Opus约30-50 TPS。80 TPS基本达到了「流式输出还没来得及看完就已经生成完了」的水平。

这个速度对Agent场景特别重要。当一个Agent需要连续调用多轮——查资料、写代码、改代码、再检查——每轮延迟越低，整个任务流的体感就越流畅。80TPS意味着Agent之间的交接几乎无感。

MiniMax此前一直走闭源路线，这次突然开源，而且MIT协议——几乎没有任何限制。这个转变的时机很微妙。

一方面，国内开源大模型已经卷成红海：DeepSeek、智谱、月之暗面都在疯狂开源。闭源意味着你要一个人对抗整个开源社区，边际成本巨大。另一方面，开源是建立生态影响力的最快方式——开发者用你的模型构建Agent和工具，你就获得了事实标准的话语权。

MiniMax这次开源，更像是一种「打不过就加入，而且要加得比谁都狠」的策略。428B全量开源，MIT协议，就是明牌——来，整个社区一起迭代。

MiniMax M不是一个革命性的模型，但它把几个技术方向推到了很极限的程度：极高总参+极低激活的MoE配比、稀疏注意力在工程上的落地、以及多模态和1M长上下文的同时支持。

如果你自己做AI应用开发，有几个点值得关注：开源协议是MIT，可以商用；80TPS速度适合做实时Agent；MSA如果被其他模型采纳，长上下文处理的成本会整体下降——这可能是最长远的影响。

6条评论

1楼 · 13小时前

一个有趣的问题：当模型激活参数只有23B但知识密度接近400B+时，我们到底该怎么衡量一个模型的「大小」？传统参数量这个指标可能已经过时了。

0人赞回复0

2楼 · 13小时前

算笔账：MIT协议+80TPS+1M上下文，这个组合在开源模型里几乎无敌。如果你在做需要长文档处理的Agent产品，MiniMax M可能是目前性价比最高的底座。

3楼 · 13小时前

我关心的是MSA对Prompt工程的影响。传统注意力是全连接的，Prompt位置不影响理解。但稀疏注意力下，信息放的顺序和位置可能会影响模型「看到」多少，需要重新摸索最佳实践。

4楼 · 13小时前

428B总参但只醒着23B，怎么感觉像上课睡觉但考试满分的学霸?

5楼 · 13小时前

第一时间本地部署试了一下。80TPS是真的，翻文档跟翻书似的。1M上下文可以一口气读完《三体》三部曲还剩一半空间。唯一缺点是显存要128G起步，机器差点拉不起来。