小米把万亿大模型跑到了1000tokens/s：不靠定制芯片，纯靠工程硬实力

6月9号，小米MiMo团队和TileRT联合推出了MiMo-V2.5-Pro-UltraSpeed推理模式。先说结论：在一台标准8卡商用GPU服务器上，万亿参数MoE模型的输出速度稳稳突破1000tokens/s。雷军亲自在微博官宣了这件事。

我跑了三年的模型推理优化，可以负责任地说——这个数字的意义不亚于当年DeepSeek把推理成本打到白菜价。它意味着大模型的"实时化"门槛被拉到了一个全新的水位。

1000tokens/s到底什么概念

先解释一下单位。1个token大约对应1-2个汉字或0.75个英文单词，1000tokens/s等于每秒输出上千个汉字，是普通人打字速度的200倍。放到行业里对比差距更直观：GPT-5.5约68tokens/s，Claude Opus 4.6约71tokens/s，主打速度的Gemini Flash约192tokens/s。之前国产模型的最快纪录是智谱GLM-5.1高速版的400tokens/s。

小米直接把天花板拉高了两倍半。而且这不是实验室跑分，是实际API吞吐量。拿具体任务来说：制作一套带动态动画、多图表的AI运营可视化大屏，标准版MiMo-V2.5-Pro要6分15秒，UltraSpeed极速版只要13秒——同等质量下快了28倍。

还有两个演示让我觉得这速度确实有用：10秒生成完整贪吃蛇游戏代码，1分钟复刻一套macOS系统页面架构。不是Demo玩具代码，是可跑的完整工程。对开发者来说，从"等着模型想"变成"模型等着你改"，这个体验差距是天壤之别。

怎么做到的：三招组合拳

行业里想拉高大模型推理速度，主流路线是砸重金定制专用芯片——Cerebras的晶圆级芯片、Groq的片上存储架构，都是靠硬件底层重构换速度。但定制芯片成本极高、通用性差，普通团队根本用不起。小米走了一条更难但更通用的路：全程用标准8卡GPU，靠软件层面的联合优化硬扛。

第一招，MXFP4差异化量化。万亿MoE模型最大的负担是参数搬运——如果把所有参数都用16bit精度跑，GPU一大半时间都在搬数据而不是计算。小米的方案很聪明：只对数量庞大、精度容错高的专家模块做4比特压缩，模型主干和注意力层保留高精度，再用量化感知训练微调补偿。压缩后模型体积大幅缩小，能力几乎没降。

第二招，DFlash块级推测解码。传统加速用一个小草稿模型逐段生成内容，再让大模型逐段验证——一步等一步，串行瓶颈严重。DFlash把这个流程改成了并行：草稿模型一次生成一整块token，万亿大模型一次性校验。实测代码场景每轮验证8个token，平均能接纳6.3个，效率提升明显。

第三招，TileRT定制推理内核。这是最底层的能力——专门为FP4量化和DFlash解码重写了编译引擎和计算核。传统框架是"算完一个算子→停下调度→再跑下一个"，微秒级停顿积累起来就是巨大延迟。TileRT换成常驻内核模式，整条计算流水线持续运转，数据搬运和计算完全重叠，GPU没有一丁点空转。

速度快了之后，能干什么

1000tokens/s不只是跑分好看，它会改变AI的商用逻辑。编程Agent是受益最直接的场景——程序员调试系统、批量写页面代码的时候，不用盯着屏幕等几分钟，实时补全、多方案一键对比。实测中UltraSpeed在这个场景表现最好。

金融场景也很有意思。高频量化交易信号筛选、实时反欺诈拦截、在线竞价——这些场景以前只能用轻量模型做，万亿大模型的分析能力再好也插不上手，因为延迟扛不住。现在速度够了，大模型能直接接入实时决策链。

医疗辅助是另一个方向。手术实时辅助判断、大批量影像病灶筛查，更快的AI分析能给医生留出更多处置时间。还有一个容易被忽略的好处：同等等待时间里，模型可以并行跑多条推理路径，自动对比纠错，靠超高吞吐量提升回答的严谨度。

开放和定价：门槛不高

小米这次相当大方。UltraSpeed限时免费开放到6月23日，审核通过的开发者能领两周Chat测试额度。定价也清晰：标准版MiMo-V2.5-Pro输出6元/百万token，极速版翻三倍18元——三倍价格换十倍速度，性价比对高频调用的企业开发者来说不亏。

模型也开源了。MiMo-V2.5-Pro的FP4量化版本可以在HuggingFace下载，MIT类许可证允许商业集成。小米这套从模型到引擎的全链路推理优化能力，放到全球范围也是第一梯队水平。国产大模型之前被诟病最多的是"跑分强但不好用"，这次1000tokens/s的突破，补上了一块关键的工程短板。

6条评论

码斯克

1楼 · 12小时前

FP4量化+DFlash+TileRT这三板斧拆解得很好。我补充一个技术细节：MXFP4不是一刀切压到4bit，而是对MoE的专家层做差异化处理——attention层保留高精度，expert层压缩。这背后需要对模型内部精度敏感度有非常细粒度的理解，不是随便调参能做到的。

0人赞回复0

代码杰哥

2楼 · 12小时前

10秒生成贪吃蛇、1分钟复刻macOS页面——这对写代码的人来说简直是科幻片。以前用Copilot写一个完整页面要等几分钟，中间还可能卡住。如果真有1000tokens/s且保持质量，我第一个把Copilot卸载了。等23号限免结束后的真机实测，看是不是吹牛。

硅谷子

3楼 · 12小时前

小米这次的策略很聪明。不做最聪明的模型，做最快且够聪明的模型——然后在开源和价格上做文章。开源+低价+高速，这个三角组合对开发者的吸引力比单纯的跑分榜第一更大。

Prompt工程师小林

4楼 · 12小时前

作为每天靠写Prompt活着的人，我最关心的不是模型跑多快，而是快了之后会不会更胡扯。速度和质量在工程上往往是矛盾的——推测解码做得越激进，接纳率越低。6.3/8的接纳率在代码场景还行，通用场景还有提升空间。希望团队继续优化。

AI摸鱼大王

5楼 · 12小时前

重点跑偏地问一句：三倍价格换十倍速度，那我的Token钱包是更耐用了还是更快见底了？? 算了一下，原来等6分钟的任务现在13秒跑完，实际消耗的token量差不多但体验天差地别。值。

小米把万亿大模型跑到了1000tokens/s：不靠定制芯片，纯靠工程硬实力

1000tokens/s到底什么概念

怎么做到的：三招组合拳

速度快了之后，能干什么

开放和定价：门槛不高

相关问题

相关文章