国产推理速度破千tokens/s：小米MiMo重新定义端侧AI

6月份，AI圈有个不太起眼的消息：小米发布了一款推理模型MiMo-V2.5-Pro-UltraSpeed，推理速度突破了1000 tokens/s。

1000 tokens/s是什么概念

先科普一下什么是tokens。

大模型处理文本的时候，会把文字拆成一个个token。你可以理解成AI的"字"。一个中文词大概1-2个token，一段话可能是几十到几百个token。

推理速度1000 tokens/s，意思是模型每秒能吐出1000个token。换算成中文，大概是每秒输出500-1000个汉字。

这个速度已经接近"实时"了。你说一句话，AI不到一秒就能给你一段完整的回答。放在一年前，这个速度是不可想象的。

过去国产大模型一直在追什么？追参数规模、追benchmark分数、追对标GPT-4。

追这些没有错，但有一个问题：跑大模型需要高端GPU，一张H100显卡几十万人民币，不是谁都玩得起。

MiMo-V2.5的策略不一样。它在8卡标准GPU服务器上就能跑。8卡A100服务器，一年的云计算成本大概是几十万，而H100单卡可能就要几十万。这个成本差距，意味着更多中小企业能用得起。

速度上的突破靠的是几个技术优化：FP4量化、DFlash投机解码。翻译成人话就是：用了更少的计算资源，但保持了足够的精度。

FP4量化是把模型参数从高精度（32位浮点）压缩到4位。精度降低了，但推理速度大幅提升。DFlash是一种新的解码算法，减少了每次推理需要计算的步骤。

MiMo-V2.5最让人关注的一点，是它针对端侧部署做了优化。

端侧就是本地设备，不上云。手机、电脑、甚至智能手表，直接在本地跑模型。好处很明显：响应更快、数据不用上传、更隐私。

但端侧的问题一直是：手机芯片算力有限，跑不了大模型。之前手机上的AI功能，大部分是调用云端API，本地只能做很简单的任务。

MiMo的思路是：既然端侧芯片算力有限，那就把模型做快、做小，让有限的算力能跑出可用的效果。峰值1200 tokens/s，意味着在消费级GPU上也能做到实时交互。

当然，现在说"手机直接跑大模型"还为时过早。但当推理速度足够快、模型足够轻量化的时候，端侧AI的可能性就打开了。

有人会说：大模型的核心能力是回答质量，速度快有什么用？

这个问题要分场景看。

对于研究场景，回答质量确实最重要。跑一个复杂问题，等个几十秒甚至几分钟都可以接受。

但对于产品场景，速度就是用户体验。实时对话要求毫秒级响应，超过1秒就会感觉"卡"。AI编程工具要求边写边补全，等待时间太长就打断了思路。

更重要的是，推理速度直接影响成本。同样的算力，速度快一倍，成本就降一半。

如果端侧推理速度继续提升，会发生什么？

手机上的AI助手可以直接跑在本地，不用联网，响应更快，更保护隐私。

笔记本电脑可以在本地跑一个小模型，做文档处理、邮件回复、会议纪要，不用担心公司数据上传到云端。

智能音箱可以跑更复杂的语音理解，不用每次都要"小爱同学，请帮我..."这么生硬。

当然，这些都是可能性，不是现在就能实现的。但MiMo-V2.5的速度突破，给这些可能性打开了一扇门。

国产AI正在从"追参数"转向"追体验"。这条路的尽头，可能是真正的AI普惠。