CVPR 2026:C²FG分数差异分析优化条件生成CFG引导
C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis 已被CVPR 2026(IEEE/CVF Conference on Computer Vision and Pattern Recognition)接收。来自vivo BlueImage Lab与上海交通大学的研究团队指出,扩散模型中长期沿用的固定CFG scale机制存在理论缺陷——条件与无条件之间的score差异在去噪过程中呈动态衰减趋势,固定参数无法同时兼顾早期结构生成与后期精细对齐。为此,他们提出时间自适应的指数控制函数C²FG,这是一种无需训练、即插即用的引导策略。在DiT、SiT、Stable Diffusion等多种架构上,C²FG稳定降低了FID并提升了IS,且能与interval guidance等引导方法正交叠加。ImageNet条件生成实验表明,C²FG在多种架构与采样器配置下均达到行业领先的生成质量。
论文主页:https://arxiv.org/abs/2603.08155
一、为什么固定 CFG scale 不够好?
标准CFG的公式如下:
\[ \hat{\epsilon}_\omega(x_t, t, y) = \hat{\epsilon}_\emptyset(x_t, t) + \omega \big( \hat{\epsilon}_c(x_t, t, y) - \hat{\epsilon}_\emptyset(x_t, t) \big) \]
业界普遍采用固定\(\omega\),但这隐含一个假设:条件与无条件之间的差异在所有时间步上具有同等重要性。理论与实证均证实,该差异在扩散过程中是动态变化的。因此,固定的\(\omega\)很难同时兼顾早期结构塑造与后期精确对齐——早期需要适度引导以勾勒轮廓,后期则需要更强引导以确保细节逼真,单一常数无法兼顾这两端。
二、核心理论(VP-SDE 重点):score discrepancy 的严格上界(论文 Theorem 1)
VP-SDE前向扩散过程由下式描述:
\[ dx_t = -\frac{1}{2}\beta(t)x_t dt + \sqrt{\beta(t)} dw_t \]
Theorem 1(VP-SDE Score MSE Bound)
假设样本空间有界且闭。令\(p(x,t)\)与\(\tilde{p}(x,t)\)为由初始分布\(p(x_0)\)与\(\tilde{p}(x_0)\)诱导的时刻\(t\)的密度(论文中取\(\tilde{p}(x,t)=p(x,t \mid y)\))。则score差异满足一致上界:
\[ \|\nabla \log p(x,t) - \nabla \log \tilde{p}(x,t)\| \le \frac{\alpha(t)}{\sigma^2(t)} C, \quad \forall x \in \text{supp}, \; t \ge 0, \]
其中\(C\)为常数,\(\alpha(t)=\exp\!\left(-\frac12\int_0^t \beta_s ds\right)\),\(\sigma(t)=\alpha(t)\sqrt{\int_0^t \frac{\beta_s}{\alpha^2(s)} ds}\)。重参数化\(t'=\frac12\int_0^t \beta_s ds\)后(论文式(9)):
\[ \|\nabla \log p(x,t) - \nabla \log p(x,t \mid y)\| \le \frac{e^{-t}}{1-e^{-2t}} C, \]
当\(t\)较大时呈现\(O(e^{-t})\)的指数衰减趋势。
结论清晰:前向扩散中,条件分布与无条件分布会逐步“趋同”,其score差异上界随时间衰减。映射到反向采样过程,越接近数据(即\(t \to 0\)),就越需要更强、更精细的条件引导来保证生成保真度。
三、方法:C²FG(指数控制的 time-dependent CFG)
我们将固定的\(\omega\)替换为时间控制函数:
\[ \omega(t) = \omega_0 \exp\!\left( \lambda \left(1 - \frac{t}{t_{\max}}\right) \right), \]
并在采样时使用:
\[ \hat{\boldsymbol{\epsilon}}_c^{\omega}(\boldsymbol{x}_t) = \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) + \omega(t) \big[ \hat{\boldsymbol{\epsilon}}_c(\boldsymbol{x}_t) - \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) \big]. \]
这种指数形式的有效性源于四个方面:
- 与理论观测一致:score差异呈指数趋势,调度函数与之自然对齐,不再依赖经验性常数;
- 连续可导更稳定:相比分段线性或硬切换,指数函数平滑过渡,避免采样过程出现突变;
- 只需两个超参:\(\omega_0\)(最大强度)与\(\lambda\)(衰减速率),调参成本极低;
- training-free、plug-and-play:无需额外训练或外部分类器,直接适配现有模型。
四、实验结果展示
Figure 1:理论预测的“时间趋势”在真实模型中成立
- (a) 条件与无条件score的MSE随时间变化,被一个随\(t \to +\infty\)逼近0的函数上界约束;
- (b) 余弦相似度在反向采样过程中下降,表明二者在幅值与方向上都逐渐分离。
Figure 2:CFG vs. C²FG 的采样流程比较
- CFG中\(\omega\)为常数;
- C²FG中\(\omega(t)\)为随时间变化的衰减控制函数。
Figure 3:C²FG的直观示意(并解释 interval guidance 可视为特例/可融合)
值得注意的是,区间guidance(interval guidance)的“仅在有效区间使用引导”策略,在C²FG框架下可获得自然解释。实际上,C²FG与interval guidance可以叠加使用,将引导集中在更有效的阶段,进一步减少不必要的模型评估开销。
Figure 4:2D Toy Example(更少 outliers,更贴近目标条件分布)
- (b) EDM2(ω=1)出现 outliers;
- (c) β-CFG(α=β=2, ω=1)outliers 更多;
- (d) C²FG(ω₀=1, λ=0.6)outliers 更少,匹配目标更好。
Figure 5:ImageNet 质化对比(纹理更清晰、畸变更少)
红框中的对比清晰可见,C²FG显著缓解了失真和纹理模糊。在不同采样器与步数下,这种改进均保持一致,未出现“此消彼长”的问题。
ImageNet Class-Conditional(多架构、多分辨率、多采样器综合评估)
DiT-XL/2 (256×256, ODE)
- baseline:FID 2.29,IS 276.8
- C²FG(ω₀=1, λ=ln2):FID 2.07,IS 291.5
SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)
- baseline:FID 1.80,IS 284.0
- C²FG(ω₀=1, λ=1):FID 1.51,IS 315.0
SiT-XL/2 (REPA, 256×256, SDE)(interval guidance Baseline)
- interval baseline:FID 1.42,IS 305.7
- interval + C²FG:FID 1.41,IS 308.0
DiT-XL/2 (512×512, SDE, 100 steps)
- baseline:FID 6.81,IS 229.5
- C²FG:FID 6.54,IS 280.9
引用:C²FG:Control Classifier-Free Guidance via Score Discrepancy Analysis, CVPR 2026.





