Google DiffusionGemma:文本生成告别打字机,速度暴增4倍

算法老KAI学习 2026-06-11 20:26:26 1阅读 举报

今天Google悄悄扔了一颗技术炸弹。在所有人盯着Anthropic和OpenAI打擂台的时候,Google开源了一个叫DiffusionGemma的模型,用了一个完全不同的方式来做文本生成。

不按顺序出牌,一次铺开256个token

先给不搞技术的朋友解释一下:现在所有主流大模型——GPT、Claude、Gemini——都用的是自回归架构。说人话就是像打字机一样,一个字一个字从左到右敲出来。每敲一个字,都要把几十亿参数的模型权重重新加载一遍。

这套方案在云服务器上没问题,因为服务器可以同时处理几千条请求、共享算力。但在你本地电脑上就不一样了——没人跟你共享算力,GPU大部分时间都在等内存,利用率很低。

DiffusionGemma换了个思路。它一次铺开256个token的"画布",从随机噪声开始,多轮迭代去噪,整段文字同时浮现。就像从打字机升级到印刷机——不再是一个字一个字敲,而是整页同时印出来。

4倍加速,一张4090就能本地跑

这套新架构带来了实打实的速度优势。

在单块H100上,DiffusionGemma跑到每秒1000+ tokens。在消费级RTX 5090上,每秒700+ tokens。而同样规格的自回归模型Gemma 4 26B A4B,加上MTP加速也只有300+ tokens/s。速度拉开近4倍。

更关键的是硬件门槛。这是26B参数的MoE模型,但推理时只激活3.8B参数,量化后18GB显存就能装下。翻译过来就是:一张RTX 4090就能本地跑。对开发者来说,这意味着本地实时AI交互不再是口号了。

采样速度也很夸张:1479 tokens/秒,单次生成耗时仅0.84秒。这个数字意味着AI回复几乎可以做到即问即答。

性能有亮点也有短板

跑分成绩说几个关键数字。

代码方面:LiveCodeBench 30.9%,BigCodeBench 45.4%,HumanEval 89.6%——和Gemini 2.0 Flash-Lite互有胜负。

数学方面是个惊喜:AIME 2025拿到23.3%,超过了对比模型的20.0%。这说明扩散架构在数学推理上可能有独特优势——因为扩散模型天然适合"多轮迭代修正",而数学推理正需要逐轮检查、逐步逼近。

但短板也明显:科学推理GPQA Diamond只有40.4%,对比模型56.5%。BIG-Bench Extra Hard 15.0%,对比模型21.0%。

Google自己也坦率地说:这是个实验性模型,整体质量不如标准Gemma 4。生产环境该用哪个还是用哪个。

开源,Apache 2.0,Hugging Face直接下载

DiffusionGemma采用Apache 2.0许可证开源,模型权重在Hugging Face可以直接下载。这对开发者社区是很友好的信号——不像某些公司开源只给看论文不给权重。

另外这个模型基于Gemma 4架构,吸收了Gemini Diffusion的前沿研究成果,用双向注意力机制代替了自回归的单向注意力。意味着模型在生成文本时可以看到"全局画面",而不是只看左边。这也是它能并行的原因。

扩散模型做文本,是真方向还是花活?

最后说点个人判断。

DiffusionGemma最大的价值不是它现在有多强,而是验证了一条新路径:扩散模型可以做文本生成,而且速度确实能大幅提升。这在学术上不是一个新想法——图像生成用扩散模型已经很多年了——但在大语言模型上真正跑出一个可用的开源模型,Google是第一个。

但它目前的定位很清晰:实验性、不适合追求质量的场景、适合低延迟本地交互。换句话说,它现在更适合"快速原型和交互",而不是"生产级文本生成"。

如果Google持续投入这条线,把扩散模型的推理能力和知识覆盖提上来,未来可能会出现一种新的模型形态:不是更快的大模型,而是完全不同的文本生成范式。

版权声明:
作者:算法老K
链接:https://www.aiddithome.com/p/41adc6cce5843.html
来源:AI学习
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
5条评论
硅谷子
1楼 · 6小时前

这件事最大的意义不是DiffusionGemma本身——它现在还是实验性的——而是Google在主流自回归路线之外,给行业开辟了一个新方向。自回归架构统治LLM已经太久了,是该有点新东西了。不过话说回来,扩散模型能不能在知识密度和推理深度上追平自回归,才是真正决定它命运的变量。

画画酱
2楼 · 6小时前

把扩散模型从图像搬到文本,Google这步棋下得真妙。图像扩散是从噪声中浮现画面,文本扩散是从噪声中浮现语义——底层逻辑是通的,只是大家之前没敢这么玩。

诸葛量
3楼 · 6小时前

几个数据值得划线:AIME 2025 23.3%超过对比模型20.0%——扩散模型在需要迭代修正的任务上可能真有优势。但GPTQA Diamond 40.4% vs 56.5%差距说明知识密集型推理还是短了。结论:方向对了,但比赛才刚开始。

代码杰哥
4楼 · 6小时前

扩散模型做文本,技术路线上确实有意思。自回归的问题就是串行——你永远得等上一个token生成完才能生成下一个。扩散模型一次展开256个token并行去噪,理论吞吐量上限天然高4倍以上。但代价是文本连贯性可能不如自回归,毕竟不是因果链。Google这次选Apache 2.0开源,诚意是在的。

码斯克
5楼 · 6小时前

18GB显存跑26B MoE,光这个数字就值得给个赞。笔记本用户终于不用羡慕H100了。