CVPR 2026：C²FG分数差异分析优化条件生成CFG引导

2026-06-15阅读 0热度 0

差异

C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis 已被CVPR 2026（IEEE/CVF Conference on Computer Vision and Pattern Recognition）接收。来自vivo BlueImage Lab与上海交通大学的研究团队指出，扩散模型中长期沿用的固定CFG scale机制存在理论缺陷——条件与无条件之间的score差异在去噪过程中呈动态衰减趋势，固定参数无法同时兼顾早期结构生成与后期精细对齐。为此，他们提出时间自适应的指数控制函数C²FG，这是一种无需训练、即插即用的引导策略。在DiT、SiT、Stable Diffusion等多种架构上，C²FG稳定降低了FID并提升了IS，且能与interval guidance等引导方法正交叠加。ImageNet条件生成实验表明，C²FG在多种架构与采样器配置下均达到行业领先的生成质量。

论文主页：https://arxiv.org/abs/2603.08155

一、为什么固定 CFG scale 不够好？

标准CFG的公式如下：

\[ \hat{\epsilon}_\omega(x_t, t, y) = \hat{\epsilon}_\emptyset(x_t, t) + \omega \big( \hat{\epsilon}_c(x_t, t, y) - \hat{\epsilon}_\emptyset(x_t, t) \big) \]

业界普遍采用固定\(\omega\)，但这隐含一个假设：条件与无条件之间的差异在所有时间步上具有同等重要性。理论与实证均证实，该差异在扩散过程中是动态变化的。因此，固定的\(\omega\)很难同时兼顾早期结构塑造与后期精确对齐——早期需要适度引导以勾勒轮廓，后期则需要更强引导以确保细节逼真，单一常数无法兼顾这两端。

二、核心理论（VP-SDE 重点）：score discrepancy 的严格上界（论文 Theorem 1）

VP-SDE前向扩散过程由下式描述：

\[ dx_t = -\frac{1}{2}\beta(t)x_t dt + \sqrt{\beta(t)} dw_t \]

Theorem 1（VP-SDE Score MSE Bound）

假设样本空间有界且闭。令\(p(x,t)\)与\(\tilde{p}(x,t)\)为由初始分布\(p(x_0)\)与\(\tilde{p}(x_0)\)诱导的时刻\(t\)的密度（论文中取\(\tilde{p}(x,t)=p(x,t \mid y)\)）。则score差异满足一致上界：

\[ \|\nabla \log p(x,t) - \nabla \log \tilde{p}(x,t)\| \le \frac{\alpha(t)}{\sigma^2(t)} C, \quad \forall x \in \text{supp}, \; t \ge 0, \]

其中\(C\)为常数，\(\alpha(t)=\exp\!\left(-\frac12\int_0^t \beta_s ds\right)\)，\(\sigma(t)=\alpha(t)\sqrt{\int_0^t \frac{\beta_s}{\alpha^2(s)} ds}\)。重参数化\(t'=\frac12\int_0^t \beta_s ds\)后（论文式(9)）：

\[ \|\nabla \log p(x,t) - \nabla \log p(x,t \mid y)\| \le \frac{e^{-t}}{1-e^{-2t}} C, \]

当\(t\)较大时呈现\(O(e^{-t})\)的指数衰减趋势。

结论清晰：前向扩散中，条件分布与无条件分布会逐步“趋同”，其score差异上界随时间衰减。映射到反向采样过程，越接近数据（即\(t \to 0\)），就越需要更强、更精细的条件引导来保证生成保真度。

三、方法：C²FG（指数控制的 time-dependent CFG）

我们将固定的\(\omega\)替换为时间控制函数：

\[ \omega(t) = \omega_0 \exp\!\left( \lambda \left(1 - \frac{t}{t_{\max}}\right) \right), \]

并在采样时使用：

\[ \hat{\boldsymbol{\epsilon}}_c^{\omega}(\boldsymbol{x}_t) = \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) + \omega(t) \big[ \hat{\boldsymbol{\epsilon}}_c(\boldsymbol{x}_t) - \hat{\boldsymbol{\epsilon}}_\varnothing(\boldsymbol{x}_t) \big]. \]

这种指数形式的有效性源于四个方面：