Google DiffusionGemma：文本生成告别打字机，速度暴增4倍

算法老KAI学习 2026-06-11 20:26:26 1阅读举报

今天Google悄悄扔了一颗技术炸弹。在所有人盯着Anthropic和OpenAI打擂台的时候，Google开源了一个叫DiffusionGemma的模型，用了一个完全不同的方式来做文本生成。

不按顺序出牌，一次铺开256个token

先给不搞技术的朋友解释一下：现在所有主流大模型——GPT、Claude、Gemini——都用的是自回归架构。说人话就是像打字机一样，一个字一个字从左到右敲出来。每敲一个字，都要把几十亿参数的模型权重重新加载一遍。

这套方案在云服务器上没问题，因为服务器可以同时处理几千条请求、共享算力。但在你本地电脑上就不一样了——没人跟你共享算力，GPU大部分时间都在等内存，利用率很低。

DiffusionGemma换了个思路。它一次铺开256个token的"画布"，从随机噪声开始，多轮迭代去噪，整段文字同时浮现。就像从打字机升级到印刷机——不再是一个字一个字敲，而是整页同时印出来。

4倍加速，一张4090就能本地跑

这套新架构带来了实打实的速度优势。

在单块H100上，DiffusionGemma跑到每秒1000+ tokens。在消费级RTX 5090上，每秒700+ tokens。而同样规格的自回归模型Gemma 4 26B A4B，加上MTP加速也只有300+ tokens/s。速度拉开近4倍。

更关键的是硬件门槛。这是26B参数的MoE模型，但推理时只激活3.8B参数，量化后18GB显存就能装下。翻译过来就是：一张RTX 4090就能本地跑。对开发者来说，这意味着本地实时AI交互不再是口号了。

采样速度也很夸张：1479 tokens/秒，单次生成耗时仅0.84秒。这个数字意味着AI回复几乎可以做到即问即答。

性能有亮点也有短板

跑分成绩说几个关键数字。

代码方面：LiveCodeBench 30.9%，BigCodeBench 45.4%，HumanEval 89.6%——和Gemini 2.0 Flash-Lite互有胜负。

数学方面是个惊喜：AIME 2025拿到23.3%，超过了对比模型的20.0%。这说明扩散架构在数学推理上可能有独特优势——因为扩散模型天然适合"多轮迭代修正"，而数学推理正需要逐轮检查、逐步逼近。

但短板也明显：科学推理GPQA Diamond只有40.4%，对比模型56.5%。BIG-Bench Extra Hard 15.0%，对比模型21.0%。

Google自己也坦率地说：这是个实验性模型，整体质量不如标准Gemma 4。生产环境该用哪个还是用哪个。

开源，Apache 2.0，Hugging Face直接下载

DiffusionGemma采用Apache 2.0许可证开源，模型权重在Hugging Face可以直接下载。这对开发者社区是很友好的信号——不像某些公司开源只给看论文不给权重。

另外这个模型基于Gemma 4架构，吸收了Gemini Diffusion的前沿研究成果，用双向注意力机制代替了自回归的单向注意力。意味着模型在生成文本时可以看到"全局画面"，而不是只看左边。这也是它能并行的原因。

扩散模型做文本，是真方向还是花活？

最后说点个人判断。

DiffusionGemma最大的价值不是它现在有多强，而是验证了一条新路径：扩散模型可以做文本生成，而且速度确实能大幅提升。这在学术上不是一个新想法——图像生成用扩散模型已经很多年了——但在大语言模型上真正跑出一个可用的开源模型，Google是第一个。

但它目前的定位很清晰：实验性、不适合追求质量的场景、适合低延迟本地交互。换句话说，它现在更适合"快速原型和交互"，而不是"生产级文本生成"。

如果Google持续投入这条线，把扩散模型的推理能力和知识覆盖提上来，未来可能会出现一种新的模型形态：不是更快的大模型，而是完全不同的文本生成范式。

版权声明：
作者：算法老K
链接：https://www.aiddithome.com/p/41adc6cce5843.html
来源：AI学习
文章版权归作者所有，未经允许请勿转载，若此文章存在违规行为，您可以点击 “举报”。

5条评论

硅谷子

1楼 · 6小时前

这件事最大的意义不是DiffusionGemma本身——它现在还是实验性的——而是Google在主流自回归路线之外，给行业开辟了一个新方向。自回归架构统治LLM已经太久了，是该有点新东西了。不过话说回来，扩散模型能不能在知识密度和推理深度上追平自回归，才是真正决定它命运的变量。

0人赞回复0

画画酱

2楼 · 6小时前

把扩散模型从图像搬到文本，Google这步棋下得真妙。图像扩散是从噪声中浮现画面，文本扩散是从噪声中浮现语义——底层逻辑是通的，只是大家之前没敢这么玩。

诸葛量

3楼 · 6小时前

几个数据值得划线：AIME 2025 23.3%超过对比模型20.0%——扩散模型在需要迭代修正的任务上可能真有优势。但GPTQA Diamond 40.4% vs 56.5%差距说明知识密集型推理还是短了。结论：方向对了，但比赛才刚开始。

代码杰哥

4楼 · 6小时前

扩散模型做文本，技术路线上确实有意思。自回归的问题就是串行——你永远得等上一个token生成完才能生成下一个。扩散模型一次展开256个token并行去噪，理论吞吐量上限天然高4倍以上。但代价是文本连贯性可能不如自回归，毕竟不是因果链。Google这次选Apache 2.0开源，诚意是在的。

码斯克

5楼 · 6小时前

18GB显存跑26B MoE，光这个数字就值得给个赞。笔记本用户终于不用羡慕H100了。