谷歌DiffusionGemma开源模型全方位评测

2026-06-15阅读 0热度 0

谷歌模型 GPU

近日，谷歌DeepMind正式开源了DiffusionGemma。这不是又一款常规大模型，而是采用了截然不同的技术路径：文本扩散架构。在专用GPU上，其文本生成速度相比传统自回归大语言模型最高提升了4倍。模型基于Apache 2.0许可证开源，权重已上传至Hugging Face开放下载。

目前主流的大模型，比如GPT、Gemini，走的都是自回归路线——从左到右逐字生成，类似打字机的工作方式。这种机制在云端高并发批处理时效率尚可，但一旦部署到本地GPU推理，内存带宽就会成为瓶颈，大量算力消耗在数据搬运的等待中。

DiffusionGemma采用了完全不同的方式。它更像我们熟知的图像生成模型：先初始化一块由256个随机占位Token构成的“画布”，再通过多轮并行去噪，逐步优化整块内容，最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了算力上，GPU的Tensor Core得以充分发挥。

更值得关注的是，它支持迭代自我纠正——在生成过程中，模型能够主动检测并修正错误，输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序等非线性任务中优势显著。原因在于这些任务中每个Token都可能依赖未来的Token，自回归模型天然难以胜任。

DiffusionGemma采用260亿参数的混合专家（MoE）架构，但推理时仅激活38亿参数。量化后占用约18GB显存，这意味着RTX 5090级别的消费级显卡即可运行。

速度表现如何？直接看数据：

硬件平台	生成速度	对比自回归模型
单块H100	1000+ tokens/s	约4倍
DGX Station	2000 tokens/s	约4倍
DGX Spark	150 tokens/s	约4倍
RTX 5090	700+ tokens/s	约4倍

采样速度达到1479 tokens/秒，单次生成耗时仅0.84秒。

亮点自然突出：

代码生成：HumanEval 89.6%，BigCodeBench 45.4%，LiveCodeBench 30.9%，与Gemini 2.0 Flash-Lite互有胜负
数学能力：AIME 2025得分23.3%，超越了对比模型的20.0%。这说明扩散架构在推理任务上确实有潜力可挖

短板也很明显：

科学推理：GPQA Diamond仅40.4%，远低于对比模型的56.5%
复杂推理：BIG-Bench ExtraHard仅15.0%，落后对比模型的21.0%

谷歌态度坦诚：DiffusionGemma定位为面向研究者和开发者的实验性模型。整体输出质量低于标准Gemma 4，生产环境仍建议选用后者。

它的速度优势主要体现在本地及低并发推理场景。在高并发云端部署中，优势实际有限。最匹配的场景是那些对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果追求最高输出质量，尤其是科学推理、复杂逻辑推演等任务，标准Gemma 4依然是更稳妥的选择。DiffusionGemma的真正价值不在于替代谁，而在于证明另一条技术路径走得通：文本生成不一定要逐字排队，并行扩散同样可行——而且在本地硬件上，它还能走得更快。

谷歌DiffusionGemma开源模型全方位评测

相关阅读

最新教程

最新资讯