DRiffusion破解采样延迟,实现扩散模型3.7倍推理加速

2026-06-15阅读 0热度 0
深度学习

扩散模型凭借其迭代去噪机制,在图像、视频、音频乃至分子设计等前沿领域展现出卓越的生成能力,有效规避了传统模型在生成质量与多样性上的固有短板。然而,这种“以时间换质量”的范式,通常需要数十至上百次迭代才能输出高保真结果。采样延迟过长、推理成本高昂,已成为其迈向实时应用与大规模部署的核心瓶颈。

为突破速度瓶颈,研究者探索了多种加速策略。例如,整流流通过优化去噪路径减少冗余迭代;知识蒸馏则压缩模型规模以换取速度。但这些方法在追求高加速比时,往往面临质量折损——细节丢失、纹理模糊,蒸馏甚至可能损害生成样本的多样性。并行化技术理论上可在不牺牲质量的前提下提速,但现有系统级方法深度依赖模型架构(如U-Net或Transformer),泛化能力有限;而数学方法将扩散过程建模为微分方程求解,虽设计了高效求解器,却常与主流框架不兼容,且易偏离原始采样分布。归根结底,这些方案均未能触及扩散模型的根本瓶颈:每一步去噪都必须依赖上一步的输出,这种串行依赖机制是限制并行化的关键掣肘。

麻省理工学院研究团队从这一根本问题出发,发现了一个简明的数学规律,并结合创新的调度模式,首次论证了扩散框架内部存在尚未被利用的潜在并行性。基于此发现,他们提出了DRiffusion——一个“草稿-精炼”并行框架,融合了系统级方法与数学方法的优势,在不牺牲生成质量的前提下实现了显著加速,为兼顾高保真度与采样效率开辟了新路径。

该研究已以预印本形式发布于arXiv,论文题为《DRiffusion: Draft-and-Refine Process Parallelizes Diffusion Models with Ease》。

研究亮点包括:

  • 首创DRiffusion“草稿-精炼”并行框架,揭示了扩散模型内在的并行性
  • 提供激进与保守两种加速模式,支持在质量与速度之间灵活折中
  • 在多模型实测中实现1.4~3.7倍真实加速,生成质量近乎无损,全面优于现有方法


论文地址:https://arxiv.org/abs/2603.25872

MS‑COCO数据集:5000张图像与25000条描述

实验采用MS‑COCO 2017验证集作为基准。该数据集包含5000张图像,每张图配5条描述文本。遵循常规做法,实验仅使用每张图像的第一条描述进行生成与图文对齐评估,以确保生成结果与参考文本一一对应,保障评估的严谨性。

鉴于传统指标对细粒度视觉偏好的敏感度不足,研究团队引入PickScore和人类偏好得分v2.1(HPSv2.1)作为补充评估指标。效率评估方面,使用最多4块NVIDIA V100 GPU,通过多次稳态运行测量平均采样延迟,并报告相对单GPU扩散模型基线的加速比及额外内存开销。

对比基线选择两类代表性加速方法:直接跳步(即减少采样步数)和AsyncDiff(通过将子网络分布在不同设备进行异步采样实现并行化)。为保证公平,研究人员基于AsyncDiff官方实现,在相同测量设置下复现了其实验结果。

DRiffusion:草稿-精炼流程简化并行化

DRiffusion的设计初衷源于一个基础问题:扩散模型能否同时计算多个时间步的噪声预测?在原始模型中,每一步去噪依赖上一步输出状态,阻碍了并行实现。跳跃转移(skip-step transition)提供了突破点——若将跳步操作视为可独立调用的局部算子,则可直接构造中间状态,实现跨时间步并行计算。

跳跃转移本身并非新概念。从连续时间视角看,系统动力学本可在更长区间上积分,跳过中间步骤。但现有扩散模型框架通常仅全局层面利用此自由度(如重选时间步子序列),缺乏局部调用、按需使用的跳步机制。


不同方法的时间依赖性

为解决此问题,DRiffusion将跳跃转移算子化。针对DDPM、DDIM及基于常微分方程(ODE)的求解器等主流扩散模型,推导出统一跳跃转移公式。由此,任意两个扩散状态可直连,无需重新制定全局时间步调度。

例如,DDPM中,从状态x_t到x_t-k的跳跃转移存在闭式解;DDIM基于边缘分布一致性实现推广;ODE建模下,跳过中间步等价于采用更大数值积分步长。该算子显著提升了采样模式设计的灵活性,为并行化铺平道路。

基于跳跃转移算子,DRiffusion核心流程分为两个阶段:草稿生成与精炼。给定锚点时间步t的状态x_t后,先用跳跃转移并行生成后续k个时间步的状态,得到草稿估计值。这些草稿因步长较大,精度略低于逐次迭代结果,但整体与原始去噪轨迹一致。随后,将这些草稿并行输入噪声预测器,获得对应噪声估计,再执行标准去噪更新,对每个草稿精炼,最终得到精炼状态与对应噪声,作为下一轮迭代锚点。

该设计面临潜在问题:跳跃步长过大,可能因噪声预测不完美导致质量下降。已有研究提及此风险,但本文实验观察到两个缓解因素。第一,轻微感知质量下降不代表表征能力显著降低,生成的图像或隐向量通常保留大部分底层语义和结构信息。第二,噪声预测器虽不完全精确,但其泛化能力足以将合理样本邻域映射为合理结果。基于此,DRiffusion即使采用较大步长,仍能输出足够高质量的图像。

具体实现上,DRiffusion包含激进与保守两个版本。激进版本将一次迭代中的多个噪声预测完全并行化,忽略通信等微小开销时,理论加速比可达k倍。保守版本则先独立计算一次高精度当前噪声(由精炼状态生成),再以此为基础复现激进版本流程,并额外推进一个时间步,理论加速比可达2k+1倍。两个版本核心思路一致:用草稿换取并行计算能力,靠精炼保障输出质量。

激进与保守版本的计算流程图

3块GPU上实现近3倍实际加速

为验证DRiffusion性能,实验覆盖了多种架构和规模的扩散模型,包括基于U-Net的Stable Diffusion 2.1(SD2.1)、Stable Diffusion XL(SDXL),以及基于Transformer的流匹配模型Stable Diffusion 3(SD3)。多种模型配置既方便与现有方法公平对比,也能充分检验方法通用性。

定性结果引人注目。在高加速比下,DRiffusion虽难以完全复现基线逐像素输出,但始终能保持语义一致性,并有效保留细粒度细节——如木质纹理、猫咪胸前高光。有时,适度跳过部分噪声采样步骤后,加速版本反而生成对比度更强、细节更锐利的图像(如猫眼反光)。激进加速(接近4倍)可能导致轻微质量折损,如色彩过饱和或细微伪影,但整体与基线一致性较高。

使用Stable Diffusion 2.1在MS-COCO数据集上进行50步的定性比较

定量结果同样出色。所有配置下FID值与基线高度接近,CLIP得分最大降幅不超过0.16。部分场景FID略有提升,主要源于统计方差。补充的PickScore和HPSv2.1评估显示:平均下降分别为0.17和0.43。唯一例外是SD3在4设备激进模式下HPSv2.1下降1.50,因为SD3默认采样步数仅28步,极端步长放大了近似误差。综合四个指标稳定性与显著加速收益,此质量折损可接受。

在MS-COCO数据集上不同模型下的DRiffusion定量结果

加速性能方面,实际加速比达1.4~3.7倍,每份样本总计算量与原始模型几乎一致。实验数据显示,激进模式延迟缩放接近理论下界O(1/N),保守模式则与O(2/(N+1))高度吻合,表明DRiffusion实现了高效、可扩展的并行化。

激进与保守版本的延迟缩放特性

方法对比结果进一步印证其优势。所有加速比组别中,DRiffusion生成质量均优于AsyncDiff和简单跳步基线。以对加速更敏感的PickScore为核心指标,DRiffusion将性能下降差距平均缩小48.6%,4设备下最大缩小58.5%。加速效果与设备数量呈近线性关系,相近设备数下加速比持平或略优于AsyncDiff。

内存效率优势更为突出。AsyncDiff额外内存最高达574MB,随设备数增加;而DRiffusion仅引入186~226MB稳定开销。相比SDXL基线约13GB内存需求,此开销几乎可忽略。在批次大小为5时,AsyncDiff在32GB节点上出现内存不足异常,DRiffusion运行正常。原因在于DRiffusion仅修改采样迭代过程,与模型结构及核心计算完全解耦。

在MS-COCO数据集上使用SDXL进行对比测试的结果

总结而言,DRiffusion在保持生成质量与细粒度细节的同时,于3块GPU上实现近3倍加速,推理速度显著提升。它将简洁的理论特性与实用并行实现相结合,交出了高质量且稳定的成绩单。

扩散模型并行化提速

扩散模型并行化已成为全球学术界与企业界共同追逐的核心方向。学术界,多家顶尖机构围绕此方向发力。麻省理工学院与香港大学联合提出Fast-dLLM,在不重新训练模型的前提下,实现扩散大规模语言模型27.6倍端到端加速(针对长文本生成任务),准确率损失控制在2%以内。

论文名称:FAST-DLLM V2: Efficient Block-Diffusion LLM
论文链接:https://arxiv.org/pdf/2509.26328

伯克利大学研发的StreamDiffusionV2流式系统,针对视频扩散模型整合SLO-aware批处理调度器与运动感知噪声控制器,在多GPU环境下将视频生成帧率提升至58 FPS,突破实时生成算力瓶颈。

论文名称:StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
论文链接:https://arxiv.org/abs/2511.07399

企业界方面,英伟达将并行化技术深度融入硬件与软件生态,通过优化计算路径与多设备协同,显著提升扩散模型推理速度,降低图像与视频生成场景算力成本。Stability AI则在Stable Diffusion系列模型中探索并行采样策略,通过优化批处理参数并启用DDIM、PLMS等支持并行处理的采样器,在保持生成质量前提下将图像生成效率提升3至5倍。

学术界与产业界的协同发力,已使扩散模型并行化成为技术突破热点。DRiffusion作为典型方案,验证了挖掘内在并行性的可行性与高效性。未来,随着硬件与算法深度协同,扩散模型有望在保持高保真度同时,实现实时生成体验,为更广泛AI应用落地扫清效率障碍。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策