DRiffusion破解采样延迟，实现扩散模型3.7倍推理加速

2026-06-15阅读 0热度 0

深度学习

扩散模型凭借其迭代去噪机制，在图像、视频、音频乃至分子设计等前沿领域展现出卓越的生成能力，有效规避了传统模型在生成质量与多样性上的固有短板。然而，这种“以时间换质量”的范式，通常需要数十至上百次迭代才能输出高保真结果。采样延迟过长、推理成本高昂，已成为其迈向实时应用与大规模部署的核心瓶颈。

为突破速度瓶颈，研究者探索了多种加速策略。例如，整流流通过优化去噪路径减少冗余迭代；知识蒸馏则压缩模型规模以换取速度。但这些方法在追求高加速比时，往往面临质量折损——细节丢失、纹理模糊，蒸馏甚至可能损害生成样本的多样性。并行化技术理论上可在不牺牲质量的前提下提速，但现有系统级方法深度依赖模型架构（如U-Net或Transformer），泛化能力有限；而数学方法将扩散过程建模为微分方程求解，虽设计了高效求解器，却常与主流框架不兼容，且易偏离原始采样分布。归根结底，这些方案均未能触及扩散模型的根本瓶颈：每一步去噪都必须依赖上一步的输出，这种串行依赖机制是限制并行化的关键掣肘。

麻省理工学院研究团队从这一根本问题出发，发现了一个简明的数学规律，并结合创新的调度模式，首次论证了扩散框架内部存在尚未被利用的潜在并行性。基于此发现，他们提出了DRiffusion——一个“草稿-精炼”并行框架，融合了系统级方法与数学方法的优势，在不牺牲生成质量的前提下实现了显著加速，为兼顾高保真度与采样效率开辟了新路径。

该研究已以预印本形式发布于arXiv，论文题为《DRiffusion: Draft-and-Refine Process Parallelizes Diffusion Models with Ease》。

研究亮点包括：

首创DRiffusion“草稿-精炼”并行框架，揭示了扩散模型内在的并行性
提供激进与保守两种加速模式，支持在质量与速度之间灵活折中
在多模型实测中实现1.4~3.7倍真实加速，生成质量近乎无损，全面优于现有方法

论文地址：https://arxiv.org/abs/2603.25872

MS‑COCO数据集：5000张图像与25000条描述

实验采用MS‑COCO 2017验证集作为基准。该数据集包含5000张图像，每张图配5条描述文本。遵循常规做法，实验仅使用每张图像的第一条描述进行生成与图文对齐评估，以确保生成结果与参考文本一一对应，保障评估的严谨性。

鉴于传统指标对细粒度视觉偏好的敏感度不足，研究团队引入PickScore和人类偏好得分v2.1（HPSv2.1）作为补充评估指标。效率评估方面，使用最多4块NVIDIA V100 GPU，通过多次稳态运行测量平均采样延迟，并报告相对单GPU扩散模型基线的加速比及额外内存开销。

对比基线选择两类代表性加速方法：直接跳步（即减少采样步数）和AsyncDiff（通过将子网络分布在不同设备进行异步采样实现并行化）。为保证公平，研究人员基于AsyncDiff官方实现，在相同测量设置下复现了其实验结果。

DRiffusion：草稿-精炼流程简化并行化

DRiffusion的设计初衷源于一个基础问题：扩散模型能否同时计算多个时间步的噪声预测？在原始模型中，每一步去噪依赖上一步输出状态，阻碍了并行实现。跳跃转移（skip-step transition）提供了突破点——若将跳步操作视为可独立调用的局部算子，则可直接构造中间状态，实现跨时间步并行计算。

跳跃转移本身并非新概念。从连续时间视角看，系统动力学本可在更长区间上积分，跳过中间步骤。但现有扩散模型框架通常仅全局层面利用此自由度（如重选时间步子序列），缺乏局部调用、按需使用的跳步机制。

不同方法的时间依赖性

为解决此问题，DRiffusion将跳跃转移算子化。针对DDPM、DDIM及基于常微分方程（ODE）的求解器等主流扩散模型，推导出统一跳跃转移公式。由此，任意两个扩散状态可直连，无需重新制定全局时间步调度。

例如，DDPM中，从状态x_t到x_t-k的跳跃转移存在闭式解；DDIM基于边缘分布一致性实现推广；ODE建模下，跳过中间步等价于采用更大数值积分步长。该算子显著提升了采样模式设计的灵活性，为并行化铺平道路。

基于跳跃转移算子，DRiffusion核心流程分为两个阶段：草稿生成与精炼。给定锚点时间步t的状态x_t后，先用跳跃转移并行生成后续k个时间步的状态，得到草稿估计值。这些草稿因步长较大，精度略低于逐次迭代结果，但整体与原始去噪轨迹一致。随后，将这些草稿并行输入噪声预测器，获得对应噪声估计，再执行标准去噪更新，对每个草稿精炼，最终得到精炼状态与对应噪声，作为下一轮迭代锚点。

该设计面临潜在问题：跳跃步长过大，可能因噪声预测不完美导致质量下降。已有研究提及此风险，但本文实验观察到两个缓解因素。第一，轻微感知质量下降不代表表征能力显著降低，生成的图像或隐向量通常保留大部分底层语义和结构信息。第二，噪声预测器虽不完全精确，但其泛化能力足以将合理样本邻域映射为合理结果。基于此，DRiffusion即使采用较大步长，仍能输出足够高质量的图像。

具体实现上，DRiffusion包含激进与保守两个版本。激进版本将一次迭代中的多个噪声预测完全并行化，忽略通信等微小开销时，理论加速比可达k倍。保守版本则先独立计算一次高精度当前噪声（由精炼状态生成），再以此为基础复现激进版本流程，并额外推进一个时间步，理论加速比可达2k+1倍。两个版本核心思路一致：用草稿换取并行计算能力，靠精炼保障输出质量。

激进与保守版本的计算流程图

3块GPU上实现近3倍实际加速

为验证DRiffusion性能，实验覆盖了多种架构和规模的扩散模型，包括基于U-Net的Stable Diffusion 2.1（SD2.1）、Stable Diffusion XL（SDXL），以及基于Transformer的流匹配模型Stable Diffusion 3（SD3）。多种模型配置既方便与现有方法公平对比，也能充分检验方法通用性。

定性结果引人注目。在高加速比下，DRiffusion虽难以完全复现基线逐像素输出，但始终能保持语义一致性，并有效保留细粒度细节——如木质纹理、猫咪胸前高光。有时，适度跳过部分噪声采样步骤后，加速版本反而生成对比度更强、细节更锐利的图像（如猫眼反光）。激进加速（接近4倍）可能导致轻微质量折损，如色彩过饱和或细微伪影，但整体与基线一致性较高。

使用Stable Diffusion 2.1在MS-COCO数据集上进行50步的定性比较

定量结果同样出色。所有配置下FID值与基线高度接近，CLIP得分最大降幅不超过0.16。部分场景FID略有提升，主要源于统计方差。补充的PickScore和HPSv2.1评估显示：平均下降分别为0.17和0.43。唯一例外是SD3在4设备激进模式下HPSv2.1下降1.50，因为SD3默认采样步数仅28步，极端步长放大了近似误差。综合四个指标稳定性与显著加速收益，此质量折损可接受。

在MS-COCO数据集上不同模型下的DRiffusion定量结果

加速性能方面，实际加速比达1.4~3.7倍，每份样本总计算量与原始模型几乎一致。实验数据显示，激进模式延迟缩放接近理论下界O(1/N)，保守模式则与O(2/(N+1))高度吻合，表明DRiffusion实现了高效、可扩展的并行化。

激进与保守版本的延迟缩放特性

方法对比结果进一步印证其优势。所有加速比组别中，DRiffusion生成质量均优于AsyncDiff和简单跳步基线。以对加速更敏感的PickScore为核心指标，DRiffusion将性能下降差距平均缩小48.6%，4设备下最大缩小58.5%。加速效果与设备数量呈近线性关系，相近设备数下加速比持平或略优于AsyncDiff。

内存效率优势更为突出。AsyncDiff额外内存最高达574MB，随设备数增加；而DRiffusion仅引入186~226MB稳定开销。相比SDXL基线约13GB内存需求，此开销几乎可忽略。在批次大小为5时，AsyncDiff在32GB节点上出现内存不足异常，DRiffusion运行正常。原因在于DRiffusion仅修改采样迭代过程，与模型结构及核心计算完全解耦。

在MS-COCO数据集上使用SDXL进行对比测试的结果

总结而言，DRiffusion在保持生成质量与细粒度细节的同时，于3块GPU上实现近3倍加速，推理速度显著提升。它将简洁的理论特性与实用并行实现相结合，交出了高质量且稳定的成绩单。

扩散模型并行化提速

扩散模型并行化已成为全球学术界与企业界共同追逐的核心方向。学术界，多家顶尖机构围绕此方向发力。麻省理工学院与香港大学联合提出Fast-dLLM，在不重新训练模型的前提下，实现扩散大规模语言模型27.6倍端到端加速（针对长文本生成任务），准确率损失控制在2%以内。

论文名称：FAST-DLLM V2: Efficient Block-Diffusion LLM
论文链接：https://arxiv.org/pdf/2509.26328

伯克利大学研发的StreamDiffusionV2流式系统，针对视频扩散模型整合SLO-aware批处理调度器与运动感知噪声控制器，在多GPU环境下将视频生成帧率提升至58 FPS，突破实时生成算力瓶颈。

论文名称：StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation
论文链接：https://arxiv.org/abs/2511.07399

企业界方面，英伟达将并行化技术深度融入硬件与软件生态，通过优化计算路径与多设备协同，显著提升扩散模型推理速度，降低图像与视频生成场景算力成本。Stability AI则在Stable Diffusion系列模型中探索并行采样策略，通过优化批处理参数并启用DDIM、PLMS等支持并行处理的采样器，在保持生成质量前提下将图像生成效率提升3至5倍。

学术界与产业界的协同发力，已使扩散模型并行化成为技术突破热点。DRiffusion作为典型方案，验证了挖掘内在并行性的可行性与高效性。未来，随着硬件与算法深度协同，扩散模型有望在保持高保真度同时，实现实时生成体验，为更广泛AI应用落地扫清效率障碍。

DRiffusion破解采样延迟，实现扩散模型3.7倍推理加速

MS‑COCO数据集：5000张图像与25000条描述

DRiffusion：草稿-精炼流程简化并行化

3块GPU上实现近3倍实际加速

扩散模型并行化提速

相关阅读

最新教程

最新资讯