谷歌DiffusionGemma模型评测：速度提升4倍对比实测

2026-06-12阅读 0热度 0

谷歌

大模型竞赛的焦点，不必总是锁定在OpenAI和Anthropic身上。

最近谷歌悄然推进了一项关键突破：将图像生成领域的扩散模型架构迁移至文本生成。更值得关注的是，这一方案实现了4倍速度提升。

新模型命名为DiffusionGemma，完全摆脱了传统自回归模型“逐字递进”的生成逻辑。它更像一台“平版印刷机”——预先铺开一张包含256个token的“画布”，从随机噪声出发，经过多轮去噪，整段文本几乎同时浮现。

性能数据相当突出：在单块H100上可达每秒1000+ token，即便在消费级RTX 5090上也能跑到700+ token。相比同等配置的自回归模型，速度提升了整整4倍。

更关键的是，这是一个26B参数的MoE模型，推理时仅激活3.8B参数。经过量化，仅需18GB显存即可承载。翻译成实操语言就是：一张RTX 4090就能在本地流畅运行。

目前DiffusionGemma采用Apache 2.0开源协议，权重已在Hugging Face开放下载，商用场景不受限制。

速度是核心壁垒

说到这里，大家应该能清楚：DiffusionGemma最鲜明的标签就是“快”。

多快？数据最有说服力。

在同一个H100上（fp8，batch size=1），DiffusionGemma跑出1000+ tokens/s，而标准自回归的Gemma 4 26B A4B即便叠加MTP加速，也仅能跑到300+ tokens/s——速度差距接近4倍。

要理解DiffusionGemma为何如此之快，先得摸清当前模型“慢”的根因。

今天的主流大模型——GPT、Claude、Gemini——底层全部依赖自回归架构：就像一位打字员，从左到右，一个字符一个字符地敲。每生成一个新词，都要重新加载几十亿参数的模型权重。

在云端，这不是问题。服务器能同时处理上千个请求，将硬件利用率拉满。

但本地推理时，场景完全不同——

只有你一个人使用，GPU的大量算力实际上处于空闲状态，只等着逐字吐词。工程师称之为“内存带宽瓶颈”（memory-bandwidth bound）。

DiffusionGemma的思路，正是借助扩散模型来破解这一困局。

回想一下，扩散模型生成图像时，是不是直接对整张图片的所有像素同时去噪？没错，它的工作方式就是一次性操作一整块token，天然具备“并行”特性。

这意味着GPU一次性接到一大块并行计算任务，Tensor Core火力全开，不再空转。计算瓶颈从“内存搬不过来”转变为“算力够不够”，而算力恰恰是GPU最不缺的资源。

具体到DiffusionGemma，原理与Stable Diffusion一致，只不过去噪得到的是文本而非图像。

Step 1： 铺开一张256个token的“画布”，初始填充随机占位符。
Step 2： 多轮迭代去噪，高置信度的token率先锁定，再用这些已确定的上下文线索修正其余部分。
Step 3： 整段文本逐渐收敛为最终输出。

用谷歌自己的比喻：这是从单线程的“打字机”升级为整版印刷的“印刷机”。

下面这个Hugging Face制作的DiffusionGemma文本到3D SVG演示，能直观感受逐阶段生成过程——模型并非从第一行代码写到最后一笔，而是整块SVG代码同时浮现、同时修正，最终收敛成一把完整的3D宝剑。

双向注意力：不止是快

速度之外，DiffusionGemma还有一个值得深挖的特性：双向注意力。

传统自回归模型只能向前看。生成第N+1个token时，只能看到第1到第N个token，无法预知尚未写出的未来内容。

而DiffusionGemma的256个token是同时生成的，每个token都能看到画布上所有其他token，前后文同步可见。

这带来一个自回归模型难以实现的能力——实时自我纠错。

模型一边生成一边评估整段文本的一致性，发现矛盾立刻修正，无需等全文生成完毕再回头调整。

谷歌用一个直观的例子说明：数独。

数独的本质是“后面的数字影响前面的数字”，自回归模型因为只能向前看，解决起来极其困难。但DiffusionGemma经过微调后，成功率直接从0%飙升至80%。

因此，如果未来涉及代码补全、行内编辑、复杂Markdown格式化等需要前后文协调的场景，扩散模型无疑具备结构性优势。

谷歌的“赛马”实验

当然，这并不代表扩散模型毫无短板。

它在图像生成领域最大的局限，同样延续到文本生成上：速度与质量的权衡——去噪步数越少，速度越快但质量越差；步数越多，质量越好但速度优势越小。

在质量层面，与同参数量的Gemma 4 26B A4B相比，DiffusionGemma在多项基准上确实存在差距。谷歌也坦诚承认，生产环境推荐标准Gemma 4，DiffusionGemma面向速度敏感的本地交互场景。

所以，正如谷歌CEO皮猜所说，DiffusionGemma目前更像一匹“赛马”——先把速度提起来。

它本质上是谷歌对下一代模型形态的一次实验：如果不再执着于逐token生成，而是让模型充分利用现代GPU的并行算力，大模型的速度上限还能被推多高？

说实话，谷歌并非这条路上第一个尝鲜者。早在今年2月，初创公司Inception Labs就发布了扩散文本模型Mercury 2，号称比Claude、Gemini快5到10倍，是业内第一个真正投产的扩散语言模型。

谷歌自己去年I/O上也展示过Gemini Diffusion实验，当时采样速度达到每秒1479 token，但之后沉寂了一整年，外界一度猜测“跑不起来”。直到现在，DiffusionGemma卷土重来，并且NVIDIA从RTX到H100全线支持——4090到H100到DGX Spark全覆盖，vLLM、MLX、Unsloth、NeMo全部适配，llama.cpp也在路上。

嘴上说着“实验性”，身体却很诚实。谷歌这次为DiffusionGemma配备的资源和生态支持，显然不是来做一个技术Demo的。

从模型到推理框架，再到硬件生态，DiffusionGemma已经获得了足够的支撑。至于它最终能否撼动自回归模型的主流地位，现在尚无定论。但至少，谷歌把这条路真正开源了。

谷歌DiffusionGemma模型评测：速度提升4倍对比实测

速度是核心壁垒

双向注意力：不止是快

谷歌的“赛马”实验

相关阅读

最新教程

最新资讯