国产推理速度破千tokens/s:小米MiMo重新定义端侧AI

AI风向标AI学习 2026-06-20 08:48:04 6阅读 举报

6月份,AI圈有个不太起眼的消息:小米发布了一款推理模型MiMo-V2.5-Pro-UltraSpeed,推理速度突破了1000 tokens/s。

1000 tokens/s是什么概念

先科普一下什么是tokens。

大模型处理文本的时候,会把文字拆成一个个token。你可以理解成AI的"字"。一个中文词大概1-2个token,一段话可能是几十到几百个token。

推理速度1000 tokens/s,意思是模型每秒能吐出1000个token。换算成中文,大概是每秒输出500-1000个汉字。

这个速度已经接近"实时"了。你说一句话,AI不到一秒就能给你一段完整的回答。放在一年前,这个速度是不可想象的。

国产模型的新方向

过去国产大模型一直在追什么?追参数规模、追benchmark分数、追对标GPT-4。

追这些没有错,但有一个问题:跑大模型需要高端GPU,一张H100显卡几十万人民币,不是谁都玩得起。

MiMo-V2.5的策略不一样。它在8卡标准GPU服务器上就能跑。8卡A100服务器,一年的云计算成本大概是几十万,而H100单卡可能就要几十万。这个成本差距,意味着更多中小企业能用得起。

速度上的突破靠的是几个技术优化:FP4量化、DFlash投机解码。翻译成人话就是:用了更少的计算资源,但保持了足够的精度。

FP4量化是把模型参数从高精度(32位浮点)压缩到4位。精度降低了,但推理速度大幅提升。DFlash是一种新的解码算法,减少了每次推理需要计算的步骤。

端侧部署的可能性

MiMo-V2.5最让人关注的一点,是它针对端侧部署做了优化。

端侧就是本地设备,不上云。手机、电脑、甚至智能手表,直接在本地跑模型。好处很明显:响应更快、数据不用上传、更隐私。

但端侧的问题一直是:手机芯片算力有限,跑不了大模型。之前手机上的AI功能,大部分是调用云端API,本地只能做很简单的任务。

MiMo的思路是:既然端侧芯片算力有限,那就把模型做快、做小,让有限的算力能跑出可用的效果。峰值1200 tokens/s,意味着在消费级GPU上也能做到实时交互。

当然,现在说"手机直接跑大模型"还为时过早。但当推理速度足够快、模型足够轻量化的时候,端侧AI的可能性就打开了。

推理速度为什么重要

有人会说:大模型的核心能力是回答质量,速度快有什么用?

这个问题要分场景看。

对于研究场景,回答质量确实最重要。跑一个复杂问题,等个几十秒甚至几分钟都可以接受。

但对于产品场景,速度就是用户体验。实时对话要求毫秒级响应,超过1秒就会感觉"卡"。AI编程工具要求边写边补全,等待时间太长就打断了思路。

更重要的是,推理速度直接影响成本。同样的算力,速度快一倍,成本就降一半。

端侧AI的想象空间

如果端侧推理速度继续提升,会发生什么?

手机上的AI助手可以直接跑在本地,不用联网,响应更快,更保护隐私。

笔记本电脑可以在本地跑一个小模型,做文档处理、邮件回复、会议纪要,不用担心公司数据上传到云端。

智能音箱可以跑更复杂的语音理解,不用每次都要"小爱同学,请帮我..."这么生硬。

当然,这些都是可能性,不是现在就能实现的。但MiMo-V2.5的速度突破,给这些可能性打开了一扇门。

国产AI正在从"追参数"转向"追体验"。这条路的尽头,可能是真正的AI普惠。

版权声明:
作者:AI风向标
链接:https://www.aiddithome.com/p/a28660f730826.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
6条评论
栗子同学
1楼 · 17小时前

1000 tokens/s真的快到有点离谱了。我现在用的模型大概几十tokens/s,每次等生成都有点焦虑。

码斯克
2楼 · 17小时前

端侧AI的想象空间很大,但隐私保护这个点国内用户其实没那么在意。倒是企业场景更刚需,数据不上云太重要了。

熵熵
3楼 · 17小时前

速度提升和成本降低是相辅相成的。当推理成本足够低,AI应用才能真正普及。

代码杰哥
4楼 · 17小时前

8卡A100能跑了,比H100门槛低多了。中小企业终于也能玩得起大模型了。

熵熵
5楼 · 17小时前

小爱同学如果能本地跑AI,以后再也不用担心说话被录音上传了?