谷歌DiffusionGemma模型评测:速度提升4倍对比实测

2026-06-12阅读 0热度 0
谷歌

大模型竞赛的焦点,不必总是锁定在OpenAI和Anthropic身上。

最近谷歌悄然推进了一项关键突破:将图像生成领域的扩散模型架构迁移至文本生成。更值得关注的是,这一方案实现了4倍速度提升

新模型命名为DiffusionGemma,完全摆脱了传统自回归模型“逐字递进”的生成逻辑。它更像一台“平版印刷机”——预先铺开一张包含256个token的“画布”,从随机噪声出发,经过多轮去噪,整段文本几乎同时浮现。

性能数据相当突出:在单块H100上可达每秒1000+ token,即便在消费级RTX 5090上也能跑到700+ token。相比同等配置的自回归模型,速度提升了整整4倍。

更关键的是,这是一个26B参数的MoE模型,推理时仅激活3.8B参数。经过量化,仅需18GB显存即可承载。翻译成实操语言就是:一张RTX 4090就能在本地流畅运行

目前DiffusionGemma采用Apache 2.0开源协议,权重已在Hugging Face开放下载,商用场景不受限制。

速度是核心壁垒

说到这里,大家应该能清楚:DiffusionGemma最鲜明的标签就是“快”。

多快?数据最有说服力。

在同一个H100上(fp8,batch size=1),DiffusionGemma跑出1000+ tokens/s,而标准自回归的Gemma 4 26B A4B即便叠加MTP加速,也仅能跑到300+ tokens/s——速度差距接近4倍

要理解DiffusionGemma为何如此之快,先得摸清当前模型“慢”的根因。

今天的主流大模型——GPT、Claude、Gemini——底层全部依赖自回归架构:就像一位打字员,从左到右,一个字符一个字符地敲。每生成一个新词,都要重新加载几十亿参数的模型权重。

在云端,这不是问题。服务器能同时处理上千个请求,将硬件利用率拉满。

但本地推理时,场景完全不同——

只有你一个人使用,GPU的大量算力实际上处于空闲状态,只等着逐字吐词。工程师称之为“内存带宽瓶颈”(memory-bandwidth bound)。

DiffusionGemma的思路,正是借助扩散模型来破解这一困局。

回想一下,扩散模型生成图像时,是不是直接对整张图片的所有像素同时去噪?没错,它的工作方式就是一次性操作一整块token,天然具备“并行”特性。

这意味着GPU一次性接到一大块并行计算任务,Tensor Core火力全开,不再空转。计算瓶颈从“内存搬不过来”转变为“算力够不够”,而算力恰恰是GPU最不缺的资源。

具体到DiffusionGemma,原理与Stable Diffusion一致,只不过去噪得到的是文本而非图像。

  • Step 1: 铺开一张256个token的“画布”,初始填充随机占位符。
  • Step 2: 多轮迭代去噪,高置信度的token率先锁定,再用这些已确定的上下文线索修正其余部分。
  • Step 3: 整段文本逐渐收敛为最终输出。

用谷歌自己的比喻:这是从单线程的“打字机”升级为整版印刷的“印刷机”。

下面这个Hugging Face制作的DiffusionGemma文本到3D SVG演示,能直观感受逐阶段生成过程——模型并非从第一行代码写到最后一笔,而是整块SVG代码同时浮现、同时修正,最终收敛成一把完整的3D宝剑。

双向注意力:不止是快

速度之外,DiffusionGemma还有一个值得深挖的特性:双向注意力

传统自回归模型只能向前看。生成第N+1个token时,只能看到第1到第N个token,无法预知尚未写出的未来内容。

而DiffusionGemma的256个token是同时生成的,每个token都能看到画布上所有其他token,前后文同步可见。

这带来一个自回归模型难以实现的能力——实时自我纠错

模型一边生成一边评估整段文本的一致性,发现矛盾立刻修正,无需等全文生成完毕再回头调整。

谷歌用一个直观的例子说明:数独。

数独的本质是“后面的数字影响前面的数字”,自回归模型因为只能向前看,解决起来极其困难。但DiffusionGemma经过微调后,成功率直接从0%飙升至80%

因此,如果未来涉及代码补全、行内编辑、复杂Markdown格式化等需要前后文协调的场景,扩散模型无疑具备结构性优势。

谷歌的“赛马”实验

当然,这并不代表扩散模型毫无短板。

它在图像生成领域最大的局限,同样延续到文本生成上:速度与质量的权衡——去噪步数越少,速度越快但质量越差;步数越多,质量越好但速度优势越小。

在质量层面,与同参数量的Gemma 4 26B A4B相比,DiffusionGemma在多项基准上确实存在差距。谷歌也坦诚承认,生产环境推荐标准Gemma 4,DiffusionGemma面向速度敏感的本地交互场景

所以,正如谷歌CEO皮猜所说,DiffusionGemma目前更像一匹“赛马”——先把速度提起来

它本质上是谷歌对下一代模型形态的一次实验:如果不再执着于逐token生成,而是让模型充分利用现代GPU的并行算力,大模型的速度上限还能被推多高?

说实话,谷歌并非这条路上第一个尝鲜者。早在今年2月,初创公司Inception Labs就发布了扩散文本模型Mercury 2,号称比Claude、Gemini快5到10倍,是业内第一个真正投产的扩散语言模型。

谷歌自己去年I/O上也展示过Gemini Diffusion实验,当时采样速度达到每秒1479 token,但之后沉寂了一整年,外界一度猜测“跑不起来”。直到现在,DiffusionGemma卷土重来,并且NVIDIA从RTX到H100全线支持——4090到H100到DGX Spark全覆盖,vLLM、MLX、Unsloth、NeMo全部适配,llama.cpp也在路上

嘴上说着“实验性”,身体却很诚实。谷歌这次为DiffusionGemma配备的资源和生态支持,显然不是来做一个技术Demo的。

从模型到推理框架,再到硬件生态,DiffusionGemma已经获得了足够的支撑。至于它最终能否撼动自回归模型的主流地位,现在尚无定论。但至少,谷歌把这条路真正开源了。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策