6月9号,小米MiMo团队和TileRT联合推出了MiMo-V2.5-Pro-UltraSpeed推理模式。先说结论:在一台标准8卡商用GPU服务器上,万亿参数MoE模型的输出速度稳稳突破1000tokens/s。雷军亲自在微博官宣了这件事。
我跑了三年的模型推理优化,可以负责任地说——这个数字的意义不亚于当年DeepSeek把推理成本打到白菜价。它意味着大模型的"实时化"门槛被拉到了一个全新的水位。
1000tokens/s到底什么概念
先解释一下单位。1个token大约对应1-2个汉字或0.75个英文单词,1000tokens/s等于每秒输出上千个汉字,是普通人打字速度的200倍。放到行业里对比差距更直观:GPT-5.5约68tokens/s,Claude Opus 4.6约71tokens/s,主打速度的Gemini Flash约192tokens/s。之前国产模型的最快纪录是智谱GLM-5.1高速版的400tokens/s。
小米直接把天花板拉高了两倍半。而且这不是实验室跑分,是实际API吞吐量。拿具体任务来说:制作一套带动态动画、多图表的AI运营可视化大屏,标准版MiMo-V2.5-Pro要6分15秒,UltraSpeed极速版只要13秒——同等质量下快了28倍。
还有两个演示让我觉得这速度确实有用:10秒生成完整贪吃蛇游戏代码,1分钟复刻一套macOS系统页面架构。不是Demo玩具代码,是可跑的完整工程。对开发者来说,从"等着模型想"变成"模型等着你改",这个体验差距是天壤之别。
怎么做到的:三招组合拳
行业里想拉高大模型推理速度,主流路线是砸重金定制专用芯片——Cerebras的晶圆级芯片、Groq的片上存储架构,都是靠硬件底层重构换速度。但定制芯片成本极高、通用性差,普通团队根本用不起。小米走了一条更难但更通用的路:全程用标准8卡GPU,靠软件层面的联合优化硬扛。
第一招,MXFP4差异化量化。万亿MoE模型最大的负担是参数搬运——如果把所有参数都用16bit精度跑,GPU一大半时间都在搬数据而不是计算。小米的方案很聪明:只对数量庞大、精度容错高的专家模块做4比特压缩,模型主干和注意力层保留高精度,再用量化感知训练微调补偿。压缩后模型体积大幅缩小,能力几乎没降。
第二招,DFlash块级推测解码。传统加速用一个小草稿模型逐段生成内容,再让大模型逐段验证——一步等一步,串行瓶颈严重。DFlash把这个流程改成了并行:草稿模型一次生成一整块token,万亿大模型一次性校验。实测代码场景每轮验证8个token,平均能接纳6.3个,效率提升明显。
第三招,TileRT定制推理内核。这是最底层的能力——专门为FP4量化和DFlash解码重写了编译引擎和计算核。传统框架是"算完一个算子→停下调度→再跑下一个",微秒级停顿积累起来就是巨大延迟。TileRT换成常驻内核模式,整条计算流水线持续运转,数据搬运和计算完全重叠,GPU没有一丁点空转。
速度快了之后,能干什么
1000tokens/s不只是跑分好看,它会改变AI的商用逻辑。编程Agent是受益最直接的场景——程序员调试系统、批量写页面代码的时候,不用盯着屏幕等几分钟,实时补全、多方案一键对比。实测中UltraSpeed在这个场景表现最好。
金融场景也很有意思。高频量化交易信号筛选、实时反欺诈拦截、在线竞价——这些场景以前只能用轻量模型做,万亿大模型的分析能力再好也插不上手,因为延迟扛不住。现在速度够了,大模型能直接接入实时决策链。
医疗辅助是另一个方向。手术实时辅助判断、大批量影像病灶筛查,更快的AI分析能给医生留出更多处置时间。还有一个容易被忽略的好处:同等等待时间里,模型可以并行跑多条推理路径,自动对比纠错,靠超高吞吐量提升回答的严谨度。
开放和定价:门槛不高
小米这次相当大方。UltraSpeed限时免费开放到6月23日,审核通过的开发者能领两周Chat测试额度。定价也清晰:标准版MiMo-V2.5-Pro输出6元/百万token,极速版翻三倍18元——三倍价格换十倍速度,性价比对高频调用的企业开发者来说不亏。
模型也开源了。MiMo-V2.5-Pro的FP4量化版本可以在HuggingFace下载,MIT类许可证允许商业集成。小米这套从模型到引擎的全链路推理优化能力,放到全球范围也是第一梯队水平。国产大模型之前被诟病最多的是"跑分强但不好用",这次1000tokens/s的突破,补上了一块关键的工程短板。
FP4量化+DFlash+TileRT这三板斧拆解得很好。我补充一个技术细节:MXFP4不是一刀切压到4bit,而是对MoE的专家层做差异化处理——attention层保留高精度,expert层压缩。这背后需要对模型内部精度敏感度有非常细粒度的理解,不是随便调参能做到的。
10秒生成贪吃蛇、1分钟复刻macOS页面——这对写代码的人来说简直是科幻片。以前用Copilot写一个完整页面要等几分钟,中间还可能卡住。如果真有1000tokens/s且保持质量,我第一个把Copilot卸载了。等23号限免结束后的真机实测,看是不是吹牛。
小米这次的策略很聪明。不做最聪明的模型,做最快且够聪明的模型——然后在开源和价格上做文章。开源+低价+高速,这个三角组合对开发者的吸引力比单纯的跑分榜第一更大。
作为每天靠写Prompt活着的人,我最关心的不是模型跑多快,而是快了之后会不会更胡扯。速度和质量在工程上往往是矛盾的——推测解码做得越激进,接纳率越低。6.3/8的接纳率在代码场景还行,通用场景还有提升空间。希望团队继续优化。
重点跑偏地问一句:三倍价格换十倍速度,那我的Token钱包是更耐用了还是更快见底了?? 算了一下,原来等6分钟的任务现在13秒跑完,实际消耗的token量差不多但体验天差地别。值。