6月8号,小米MiMo团队联合TileRT系统组发布了一个炸裂的东西——MiMo-V2.5-Pro-UltraSpeed推理模式。在单台标准8卡通用GPU节点上,1万亿参数的MoE模型跑出了超过1000 tokens/s的生成速度,峰值能到约1200 tps。6月9号开始限时两周开放API申请。
1000 tps什么概念?10秒出贪吃蛇,1分钟复刻macOS
说人话:你问ChatGPT一个问题,它大概一秒吐几十个token,你能看着字一个个往外蹦。1000 tps意味着你眨个眼,几百字已经出来了。小米官方演示了两个场景:10秒生成一个完整的贪吃蛇小游戏,1分钟复刻一个macOS系统界面。
这个速度对于Coding Agent来说简直是降维打击。以前让AI写代码,最痛苦的环节不是它不会写,而是你要坐那干等。1000 tps之下,代码生成的速度终于跟上了思考的速度——开发者不用再对着屏幕发呆,Agent单次任务的时间成本大幅降低。
更深层的改变是推理范式的升级。过去面对难题,模型只能走一条路等一个答案。现在同样的等待时间内,模型能并行跑几十条推理路径,后台自动验证纠错——用速度换智能深度。这就是Best-of-N和Tree Search能在生产环境落地的底层前提。
不走专用芯片路线,8张通用GPU就搞定了
这个事最让我respect的地方是技术路线选择。业界做极速推理通常走专用硬件路线——Cerebras搞晶圆级集成,Groq用纯片上SRAM定制芯片。小米和TileRT选了一条更难的路:就在通用GPU上,靠模型和系统的协同优化硬刚。
具体做了三件事:第一,FP4量化。只对MoE的Expert层做4-bit量化,核心模块保持FP8精度,通过量化感知训练让模型能力几乎不降。1T参数模型体积大幅缩减,显存带宽压力骤降。
第二,DFlash投机解码。传统投机解码让一个小模型先猜token、大模型验证,瓶颈在小模型猜得不准。DFlash用块级Mask并行预测,单次前向直接填出一整块候选token,在Coding场景中平均接受长度达到6.30,意味着每轮验证8个draft token能接受6-7个。
第三,TileRT常驻内核引擎。抛弃逐算子启动模式,让计算流水线常驻GPU持续流转,把数据搬运和计算做到极致重叠。微秒级的软硬件协同调优,最终在硬件边界内稳稳闭环。
3倍价格10倍速度,这账怎么算都划算
定价策略也很聪明:UltraSpeed API定价是标准版的3倍,但输出速度是约10倍。不考虑排队时间的话,单位token成本实际上是原来的三分之一不到。对于高频调用场景——量化交易信号、实时风控、交互式Agent——这个性价比是碾压级的。
限时体验从6月9号到23号,申请制开放。网页端聊天免费体验,每天最多排10次队,每次30分钟。API申请优先企业用户和专业开发者。
但说真的,我最期待的不是API本身,而是这个技术路线的示范效应。它证明了万亿参数模型不必依赖天价专用硬件也能跑出极速——对创业公司和独立开发者来说,这意味着门槛在快速降低。
速度竞赛只是开始,Agent时代需要的不只是快
1000 tps是个里程碑,但它解决的是"响应速度"问题,不是"智能水平"问题。MiMo团队负责人罗福莉之前说过一个很有意思的判断:Chat时代的用卡比例是研究3:预训练5:后训练1,Agent时代要变成3:1:1——后训练和预训练投入相当。
这说明什么?模型跑得快是前提,但真正拉开差距的是Agent框架、工具调用、多步推理这些"上层建筑"。1000 tps让实时Agent成为可能,但能不能做出真正好用的Agent产品,还得看工程能力和产品设计。
不管怎样,8张通用GPU跑出千tps,这件事本身就是在给国产AI打样——不跟风堆卡,用工程优化和系统设计走自己的路。这才是真正的硬核。

FP4只在Expert层做量化这个思路很聪明。MoE架构里Expert占绝大多数参数,对量化容忍度也最高。其他模块保持FP8,等于把量化带来的精度损失控制到最低。工程细节见真章。
这件事的意义不在于1000这个数字,而在于路线选择。不堆专用硬件,在通用GPU上靠软硬件协同优化做到极致——这是在给整个行业打样:不一定要走最贵的路才能跑最快。
10秒出贪吃蛇?1分钟复刻macOS?? 所以以后前端切图是不是直接喂给MiMo就行了…
DFlash那个块级Mask并行预测有点东西。传统投机解码的瓶颈一直在小模型猜不准,DFlash跳过自回归串行约束,在Coding场景接受长度6.30——相当于每轮8个候选能验证通过6-7个,效率拉满。
3倍价格10倍速度,单位token成本降了三分之二。如果是做Agent高频调用场景,这个ROI是碾压级的。关键看两周后正式定价怎么定。