CVPR 2026:C²FG分数差异分析优化条件生成CFG引导

2026-06-15阅读 0热度 0
差异

C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis 已被CVPR 2026(IEEE/CVF Conference on Computer Vision and Pattern Recognition)接收。来自vivo BlueImage Lab与上海交通大学的研究团队指出,扩散模型中长期沿用的固定CFG scale机制存在理论缺陷——条件与无条件之间的score差异在去噪过程中呈动态衰减趋势,固定参数无法同时兼顾早期结构生成与后期精细对齐。为此,他们提出时间自适应的指数控制函数C²FG,这是一种无需训练、即插即用的引导策略。在DiT、SiT、Stable Diffusion等多种架构上,C²FG稳定降低了FID并提升了IS,且能与interval guidance等引导方法正交叠加。ImageNet条件生成实验表明,C²FG在多种架构与采样器配置下均达到行业领先的生成质量。

论文主页:https://arxiv.org/abs/2603.08155

一、为什么固定 CFG scale 不够好?

标准CFG的公式如下:

\[ \hat{\epsilon}_\omega(x_t, t, y) = \hat{\epsilon}_\emptyset(x_t, t) + \omega \big( \hat{\epsilon}_c(x_t, t, y) - \hat{\epsilon}_\emptyset(x_t, t) \big) \]

业界普遍采用固定\(\omega\),但这隐含一个假设:条件与无条件之间的差异在所有时间步上具有同等重要性。理论与实证均证实,该差异在扩散过程中是动态变化的。因此,固定的\(\omega\)很难同时兼顾早期结构塑造与后期精确对齐——早期需要适度引导以勾勒轮廓,后期则需要更强引导以确保细节逼真,单一常数无法兼顾这两端。

二、核心理论(VP-SDE 重点):score discrepancy 的严格上界(论文 Theorem 1)

VP-SDE前向扩散过程由下式描述:

\[ dx_t = -\frac{1}{2}\beta(t)x_t dt + \sqrt{\beta(t)} dw_t \]

Theorem 1(VP-SDE Score MSE Bound)

假设样本空间有界且闭。令\(p(x,t)\)与\(\tilde{p}(x,t)\)为由初始分布\(p(x_0)\)与\(\tilde{p}(x_0)\)诱导的时刻\(t\)的密度(论文中取\(\tilde{p}(x,t)=p(x,t \mid y)\))。则score差异满足一致上界:

\[ \|\nabla \log p(x,t) - \nabla \log \tilde{p}(x,t)\| \le \frac{\alpha(t)}{\sigma^2(t)} C, \quad \forall x \in \text{supp}, \; t \ge 0, \]

其中\(C\)为常数,\(\alpha(t)=\exp\!\left(-\frac12\int_0^t \beta_s ds\right)\),\(\sigma(t)=\alpha(t)\sqrt{\int_0^t \frac{\beta_s}{\alpha^2(s)} ds}\)。重参数化\(t'=\frac12\int_0^t \beta_s ds\)后(论文式(9)):

\[ \|\nabla \log p(x,t) - \nabla \log p(x,t \mid y)\| \le \frac{e^{-t}}{1-e^{-2t}} C, \]

当\(t\)较大时呈现\(O(e^{-t})\)的指数衰减趋势。

结论清晰:前向扩散中,条件分布与无条件分布会逐步“趋同”,其score差异上界随时间衰减。映射到反向采样过程,越接近数据(即\(t \to 0\)),就越需要更强、更精细的条件引导来保证生成保真度。

三、方法:C²FG(指数控制的 time-dependent CFG)

我们将固定的\(\omega\)替换为时间控制函数:

\[ \omega(t) = \omega_0 \exp\!\left( \lambda \left(1 - \frac{t}{t_{\max}}\right) \right), \]

并在采样时使用:

\[ \hat{\boldsymbol{\epsilon}}_c^{\omega}(\boldsymbol{x}_t) = \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) + \omega(t) \big[ \hat{\boldsymbol{\epsilon}}_c(\boldsymbol{x}_t) - \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) \big]. \]

这种指数形式的有效性源于四个方面:

  • 与理论观测一致:score差异呈指数趋势,调度函数与之自然对齐,不再依赖经验性常数;
  • 连续可导更稳定:相比分段线性或硬切换,指数函数平滑过渡,避免采样过程出现突变;
  • 只需两个超参:\(\omega_0\)(最大强度)与\(\lambda\)(衰减速率),调参成本极低;
  • training-free、plug-and-play:无需额外训练或外部分类器,直接适配现有模型。

四、实验结果展示

Figure 1:理论预测的“时间趋势”在真实模型中成立

  • (a) 条件与无条件score的MSE随时间变化,被一个随\(t \to +\infty\)逼近0的函数上界约束;
  • (b) 余弦相似度在反向采样过程中下降,表明二者在幅值与方向上都逐渐分离。

Figure 2:CFG vs. C²FG 的采样流程比较

  • CFG中\(\omega\)为常数;
  • C²FG中\(\omega(t)\)为随时间变化的衰减控制函数。

Figure 3:C²FG的直观示意(并解释 interval guidance 可视为特例/可融合)

值得注意的是,区间guidance(interval guidance)的“仅在有效区间使用引导”策略,在C²FG框架下可获得自然解释。实际上,C²FG与interval guidance可以叠加使用,将引导集中在更有效的阶段,进一步减少不必要的模型评估开销。

Figure 4:2D Toy Example(更少 outliers,更贴近目标条件分布)

  • (b) EDM2(ω=1)出现 outliers;
  • (c) β-CFG(α=β=2, ω=1)outliers 更多;
  • (d) C²FG(ω₀=1, λ=0.6)outliers 更少,匹配目标更好。

Figure 5:ImageNet 质化对比(纹理更清晰、畸变更少)

红框中的对比清晰可见,C²FG显著缓解了失真和纹理模糊。在不同采样器与步数下,这种改进均保持一致,未出现“此消彼长”的问题。

ImageNet Class-Conditional(多架构、多分辨率、多采样器综合评估)

DiT-XL/2 (256×256, ODE)

  • baseline:FID 2.29,IS 276.8
  • C²FG(ω₀=1, λ=ln2):FID 2.07,IS 291.5

SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)

  • baseline:FID 1.80,IS 284.0
  • C²FG(ω₀=1, λ=1):FID 1.51,IS 315.0

SiT-XL/2 (REPA, 256×256, SDE)(interval guidance Baseline)

  • interval baseline:FID 1.42,IS 305.7
  • interval + C²FG:FID 1.41,IS 308.0

DiT-XL/2 (512×512, SDE, 100 steps)

  • baseline:FID 6.81,IS 229.5
  • C²FG:FID 6.54,IS 280.9

引用:C²FG:Control Classifier-Free Guidance via Score Discrepancy Analysis, CVPR 2026.

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策