谷歌DiffusionGemma开源模型全方位评测

2026-06-15阅读 0热度 0
谷歌 模型 GPU

近日,谷歌DeepMind正式开源了DiffusionGemma。这不是又一款常规大模型,而是采用了截然不同的技术路径:文本扩散架构。在专用GPU上,其文本生成速度相比传统自回归大语言模型最高提升了4倍。模型基于Apache 2.0许可证开源,权重已上传至Hugging Face开放下载。

谷歌推出DiffusionGemma开源模型

目前主流的大模型,比如GPT、Gemini,走的都是自回归路线——从左到右逐字生成,类似打字机的工作方式。这种机制在云端高并发批处理时效率尚可,但一旦部署到本地GPU推理,内存带宽就会成为瓶颈,大量算力消耗在数据搬运的等待中。

DiffusionGemma采用了完全不同的方式。它更像我们熟知的图像生成模型:先初始化一块由256个随机占位Token构成的“画布”,再通过多轮并行去噪,逐步优化整块内容,最终一次性输出完整文本。所有Token同时生成、同时优化。瓶颈从内存带宽转移到了算力上,GPU的Tensor Core得以充分发挥。

更值得关注的是,它支持迭代自我纠正——在生成过程中,模型能够主动检测并修正错误,输出更加稳定一致。这一特性在数独求解、行内编辑、分子测序等非线性任务中优势显著。原因在于这些任务中每个Token都可能依赖未来的Token,自回归模型天然难以胜任。

DiffusionGemma采用260亿参数的混合专家(MoE)架构,但推理时仅激活38亿参数。量化后占用约18GB显存,这意味着RTX 5090级别的消费级显卡即可运行。

速度表现如何?直接看数据:

硬件平台生成速度对比自回归模型
单块H1001000+ tokens/s约4倍
DGX Station2000 tokens/s约4倍
DGX Spark150 tokens/s约4倍
RTX 5090700+ tokens/s约4倍

采样速度达到1479 tokens/秒,单次生成耗时仅0.84秒。

亮点自然突出:

  • 代码生成:HumanEval 89.6%,BigCodeBench 45.4%,LiveCodeBench 30.9%,与Gemini 2.0 Flash-Lite互有胜负
  • 数学能力:AIME 2025得分23.3%,超越了对比模型的20.0%。这说明扩散架构在推理任务上确实有潜力可挖

短板也很明显:

  • 科学推理:GPQA Diamond仅40.4%,远低于对比模型的56.5%
  • 复杂推理:BIG-Bench ExtraHard仅15.0%,落后对比模型的21.0%

谷歌态度坦诚:DiffusionGemma定位为面向研究者和开发者的实验性模型。整体输出质量低于标准Gemma 4,生产环境仍建议选用后者。

它的速度优势主要体现在本地及低并发推理场景。在高并发云端部署中,优势实际有限。最匹配的场景是那些对延迟敏感、需要实时响应的本地应用——比如个人AI助手、离线代码补全、本地文档处理等。

但如果追求最高输出质量,尤其是科学推理、复杂逻辑推演等任务,标准Gemma 4依然是更稳妥的选择。DiffusionGemma的真正价值不在于替代谁,而在于证明另一条技术路径走得通:文本生成不一定要逐字排队,并行扩散同样可行——而且在本地硬件上,它还能走得更快。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策