小米MiMo飙到每秒1000 token：1T参数模型跑出国产速度新纪录

6月8号，小米MiMo团队联合TileRT系统组发布了一个炸裂的东西——MiMo-V2.5-Pro-UltraSpeed推理模式。在单台标准8卡通用GPU节点上，1万亿参数的MoE模型跑出了超过1000 tokens/s的生成速度，峰值能到约1200 tps。6月9号开始限时两周开放API申请。

1000 tps什么概念？10秒出贪吃蛇，1分钟复刻macOS

说人话：你问ChatGPT一个问题，它大概一秒吐几十个token，你能看着字一个个往外蹦。1000 tps意味着你眨个眼，几百字已经出来了。小米官方演示了两个场景：10秒生成一个完整的贪吃蛇小游戏，1分钟复刻一个macOS系统界面。

这个速度对于Coding Agent来说简直是降维打击。以前让AI写代码，最痛苦的环节不是它不会写，而是你要坐那干等。1000 tps之下，代码生成的速度终于跟上了思考的速度——开发者不用再对着屏幕发呆，Agent单次任务的时间成本大幅降低。

更深层的改变是推理范式的升级。过去面对难题，模型只能走一条路等一个答案。现在同样的等待时间内，模型能并行跑几十条推理路径，后台自动验证纠错——用速度换智能深度。这就是Best-of-N和Tree Search能在生产环境落地的底层前提。

这个事最让我respect的地方是技术路线选择。业界做极速推理通常走专用硬件路线——Cerebras搞晶圆级集成，Groq用纯片上SRAM定制芯片。小米和TileRT选了一条更难的路：就在通用GPU上，靠模型和系统的协同优化硬刚。

具体做了三件事：第一，FP4量化。只对MoE的Expert层做4-bit量化，核心模块保持FP8精度，通过量化感知训练让模型能力几乎不降。1T参数模型体积大幅缩减，显存带宽压力骤降。

第二，DFlash投机解码。传统投机解码让一个小模型先猜token、大模型验证，瓶颈在小模型猜得不准。DFlash用块级Mask并行预测，单次前向直接填出一整块候选token，在Coding场景中平均接受长度达到6.30，意味着每轮验证8个draft token能接受6-7个。

第三，TileRT常驻内核引擎。抛弃逐算子启动模式，让计算流水线常驻GPU持续流转，把数据搬运和计算做到极致重叠。微秒级的软硬件协同调优，最终在硬件边界内稳稳闭环。

定价策略也很聪明：UltraSpeed API定价是标准版的3倍，但输出速度是约10倍。不考虑排队时间的话，单位token成本实际上是原来的三分之一不到。对于高频调用场景——量化交易信号、实时风控、交互式Agent——这个性价比是碾压级的。

限时体验从6月9号到23号，申请制开放。网页端聊天免费体验，每天最多排10次队，每次30分钟。API申请优先企业用户和专业开发者。

但说真的，我最期待的不是API本身，而是这个技术路线的示范效应。它证明了万亿参数模型不必依赖天价专用硬件也能跑出极速——对创业公司和独立开发者来说，这意味着门槛在快速降低。

1000 tps是个里程碑，但它解决的是"响应速度"问题，不是"智能水平"问题。MiMo团队负责人罗福莉之前说过一个很有意思的判断：Chat时代的用卡比例是研究3:预训练5:后训练1，Agent时代要变成3:1:1——后训练和预训练投入相当。

这说明什么？模型跑得快是前提，但真正拉开差距的是Agent框架、工具调用、多步推理这些"上层建筑"。1000 tps让实时Agent成为可能，但能不能做出真正好用的Agent产品，还得看工程能力和产品设计。

不管怎样，8张通用GPU跑出千tps，这件事本身就是在给国产AI打样——不跟风堆卡，用工程优化和系统设计走自己的路。这才是真正的硬核。

5条评论

1楼 · 11小时前

FP4只在Expert层做量化这个思路很聪明。MoE架构里Expert占绝大多数参数，对量化容忍度也最高。其他模块保持FP8，等于把量化带来的精度损失控制到最低。工程细节见真章。

0人赞回复0

2楼 · 11小时前

这件事的意义不在于1000这个数字，而在于路线选择。不堆专用硬件，在通用GPU上靠软硬件协同优化做到极致——这是在给整个行业打样：不一定要走最贵的路才能跑最快。

3楼 · 11小时前

10秒出贪吃蛇？1分钟复刻macOS？? 所以以后前端切图是不是直接喂给MiMo就行了…

4楼 · 11小时前

DFlash那个块级Mask并行预测有点东西。传统投机解码的瓶颈一直在小模型猜不准，DFlash跳过自回归串行约束，在Coding场景接受长度6.30——相当于每轮8个候选能验证通过6-7个，效率拉满。

5楼 · 11小时前

3倍价格10倍速度，单位token成本降了三分之二。如果是做Agent高频调用场景，这个ROI是碾压级的。关键看两周后正式定价怎么定。