谷歌DiffusionGemma模型评测:速度提升4倍对比实测
大模型竞赛的焦点,不必总是锁定在OpenAI和Anthropic身上。
最近谷歌悄然推进了一项关键突破:将图像生成领域的扩散模型架构迁移至文本生成。更值得关注的是,这一方案实现了4倍速度提升。
新模型命名为DiffusionGemma,完全摆脱了传统自回归模型“逐字递进”的生成逻辑。它更像一台“平版印刷机”——预先铺开一张包含256个token的“画布”,从随机噪声出发,经过多轮去噪,整段文本几乎同时浮现。
性能数据相当突出:在单块H100上可达每秒1000+ token,即便在消费级RTX 5090上也能跑到700+ token。相比同等配置的自回归模型,速度提升了整整4倍。
更关键的是,这是一个26B参数的MoE模型,推理时仅激活3.8B参数。经过量化,仅需18GB显存即可承载。翻译成实操语言就是:一张RTX 4090就能在本地流畅运行。
目前DiffusionGemma采用Apache 2.0开源协议,权重已在Hugging Face开放下载,商用场景不受限制。
速度是核心壁垒
说到这里,大家应该能清楚:DiffusionGemma最鲜明的标签就是“快”。
多快?数据最有说服力。
在同一个H100上(fp8,batch size=1),DiffusionGemma跑出1000+ tokens/s,而标准自回归的Gemma 4 26B A4B即便叠加MTP加速,也仅能跑到300+ tokens/s——速度差距接近4倍。
要理解DiffusionGemma为何如此之快,先得摸清当前模型“慢”的根因。
今天的主流大模型——GPT、Claude、Gemini——底层全部依赖自回归架构:就像一位打字员,从左到右,一个字符一个字符地敲。每生成一个新词,都要重新加载几十亿参数的模型权重。
在云端,这不是问题。服务器能同时处理上千个请求,将硬件利用率拉满。
但本地推理时,场景完全不同——
只有你一个人使用,GPU的大量算力实际上处于空闲状态,只等着逐字吐词。工程师称之为“内存带宽瓶颈”(memory-bandwidth bound)。
DiffusionGemma的思路,正是借助扩散模型来破解这一困局。
回想一下,扩散模型生成图像时,是不是直接对整张图片的所有像素同时去噪?没错,它的工作方式就是一次性操作一整块token,天然具备“并行”特性。
这意味着GPU一次性接到一大块并行计算任务,Tensor Core火力全开,不再空转。计算瓶颈从“内存搬不过来”转变为“算力够不够”,而算力恰恰是GPU最不缺的资源。
具体到DiffusionGemma,原理与Stable Diffusion一致,只不过去噪得到的是文本而非图像。
- Step 1: 铺开一张256个token的“画布”,初始填充随机占位符。
- Step 2: 多轮迭代去噪,高置信度的token率先锁定,再用这些已确定的上下文线索修正其余部分。
- Step 3: 整段文本逐渐收敛为最终输出。
用谷歌自己的比喻:这是从单线程的“打字机”升级为整版印刷的“印刷机”。
下面这个Hugging Face制作的DiffusionGemma文本到3D SVG演示,能直观感受逐阶段生成过程——模型并非从第一行代码写到最后一笔,而是整块SVG代码同时浮现、同时修正,最终收敛成一把完整的3D宝剑。
双向注意力:不止是快
速度之外,DiffusionGemma还有一个值得深挖的特性:双向注意力。
传统自回归模型只能向前看。生成第N+1个token时,只能看到第1到第N个token,无法预知尚未写出的未来内容。
而DiffusionGemma的256个token是同时生成的,每个token都能看到画布上所有其他token,前后文同步可见。
这带来一个自回归模型难以实现的能力——实时自我纠错。
模型一边生成一边评估整段文本的一致性,发现矛盾立刻修正,无需等全文生成完毕再回头调整。
谷歌用一个直观的例子说明:数独。
数独的本质是“后面的数字影响前面的数字”,自回归模型因为只能向前看,解决起来极其困难。但DiffusionGemma经过微调后,成功率直接从0%飙升至80%。
因此,如果未来涉及代码补全、行内编辑、复杂Markdown格式化等需要前后文协调的场景,扩散模型无疑具备结构性优势。
谷歌的“赛马”实验
当然,这并不代表扩散模型毫无短板。
它在图像生成领域最大的局限,同样延续到文本生成上:速度与质量的权衡——去噪步数越少,速度越快但质量越差;步数越多,质量越好但速度优势越小。
在质量层面,与同参数量的Gemma 4 26B A4B相比,DiffusionGemma在多项基准上确实存在差距。谷歌也坦诚承认,生产环境推荐标准Gemma 4,DiffusionGemma面向速度敏感的本地交互场景。
所以,正如谷歌CEO皮猜所说,DiffusionGemma目前更像一匹“赛马”——先把速度提起来。
它本质上是谷歌对下一代模型形态的一次实验:如果不再执着于逐token生成,而是让模型充分利用现代GPU的并行算力,大模型的速度上限还能被推多高?
说实话,谷歌并非这条路上第一个尝鲜者。早在今年2月,初创公司Inception Labs就发布了扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍,是业内第一个真正投产的扩散语言模型。
谷歌自己去年I/O上也展示过Gemini Diffusion实验,当时采样速度达到每秒1479 token,但之后沉寂了一整年,外界一度猜测“跑不起来”。直到现在,DiffusionGemma卷土重来,并且NVIDIA从RTX到H100全线支持——4090到H100到DGX Spark全覆盖,vLLM、MLX、Unsloth、NeMo全部适配,llama.cpp也在路上。
嘴上说着“实验性”,身体却很诚实。谷歌这次为DiffusionGemma配备的资源和生态支持,显然不是来做一个技术Demo的。
从模型到推理框架,再到硬件生态,DiffusionGemma已经获得了足够的支撑。至于它最终能否撼动自回归模型的主流地位,现在尚无定论。但至少,谷歌把这条路真正开源了。







