南洋理工AI图像生成新突破：只聚焦有效信息

2026-06-20阅读 0热度 0

图像生成

南洋理工大学S-Lab主导的这项研究，于2026年6月以预印本形式发布。

谈及AI图像生成，多数人首先想到的是那些能凭空构建逼真风景、人像乃至超现实场景的模型。这类模型的核心技术是扩散模型——其工作原理可类比为：先将一张清晰图像逐步加入噪声直至完全随机，再反向训练AI从噪声中还原出原始图像。

南洋理工大学团队发现，扩散模型在去噪过程中存在一个长期被忽视的计算浪费：大量算力被投入到无意义的环节。更关键的是，他们提出的修复方案几乎不消耗额外计算资源，也不改动核心训练流程。该方案被命名为频谱强制（Spectral Forcing，简称SF）。

一、AI如何区分噪声与信号：频率视角下的训练本质

理解这项研究的核心，需要先明确扩散模型的训练环境。

以主流训练方式“矫正流扩散”为例，AI在每个训练时刻处理的是一张“半成品图”——它介于纯随机噪声与清晰原始照片之间。越接近起点（纯噪声），图像越模糊；越接近终点（清晰照片），图像越真实。AI的任务是在每个时刻预测“朝哪个方向移动才能获得真实图像”。

自然图像遵循一个普遍规律：高频信息（如纹理、边缘锯齿）的携带能量远低于低频信息（如大块颜色、整体形状）。用声音类比，低频如同低沉的鼓声，能量强且穿透力大；高频则像细碎沙沙声，微弱易被掩盖。

当噪声加入图像时，微弱的高频细节极易被噪声淹没。研究团队通过数学推导得出明确界限：在任意训练时刻，超过某个临界频率的细节已完全被噪声覆盖，无法提取原始图像信息。这条临界线可用公式精确描述，并随训练向“清晰照片”推进而扩展，逐步允许更多有效频率显露。

问题在于，AI并不知晓这条界限的存在。它在每个时刻处理图像的所有频率，包括那些已被噪声覆盖、不含任何有用信息的高频部分。

二、冗余计算：AI在“学习”无意义的固定模式

为验证这一猜测，研究团队设计了一个简单但极具说服力的实验。他们训练了一个小型AI模型，在合成数据上充分学习后，检查模型在每个“时刻-频率”组合上的表现：AI的预测优于“直接输出零”这一最简基线多少？

结果呈现清晰的楔形地图：在低频区域和靠近清晰图像的训练时刻，AI确实做了有价值的工作——它学到了数据真实分布，表现优于“零预测”基线。但在高频区域和靠近噪声的时刻，出现了两种情况：要么AI的预测退化为一个固定数学公式（因为噪声覆盖了信号，AI只能机械去噪，与数据本身无关），要么AI的预测甚至不如最简基线。换言之，AI将大量算力花在了两类无意义任务上：一是解固定方程，二是连方程都未解好。

研究团队在ImageNet（包含大量真实照片的标准测试集）上训练的大型模型中进行相同检验，同样发现了清晰的“楔形结构”。高频、早期时刻区域的预测表现甚至低于零预测基线。计算浪费不仅是理论预测，更是真实模型中切实存在的现象。

三、频谱强制：动态调节的“低通滤镜”

基于问题定位，解决方案应运而生：在每个训练时刻，直接屏蔽那些被噪声覆盖、毫无价值的高频信息，让AI只聚焦于有效部分。

频谱强制的实现可类比摄影中的低通滤镜——它让图像柔化，滤除细碎噪声和锐利边缘，保留整体颜色与轮廓。但频谱强制有两个关键差异：其一，滤镜截止点基于数学推导的“有用信号界线”设定；其二，截止点随训练时刻动态变化——靠近噪声时截止点极低，只允许少量低频通过；随训练推进，截止点逐步扩大，直至最终时刻完全取消滤镜，让AI看到完整图像。

技术上，该滤镜采用二维离散余弦变换（2D-DCT），一种与JPEG压缩同源的数学工具，用于将图像“分解”为不同频率成分。具体流程为：每步训练中，先对当前含噪图像执行DCT变换，再用软性圆形遮罩将超出截止半径的高频系数乘以接近零的权重，最后通过逆变换还原图像，再送入AI模型。该操作不引入任何可学习参数，计算量仅占总训练成本的0.5%，且完全不改动训练损失函数、采样器或其他组件。

截止点的变化曲线（即“调度方案”）是另一重要设计选择。研究团队测试了线性增长、平方增长、余弦增长以及直接理论推导的“解析方案”。线性方案最简单，截止点随时间均匀扩大；解析方案则完全跟随理论信号界线。实验表明，线性方案在ImageNet标准设置下表现最佳，而解析方案在高分辨率场景中优势明显——其原因如下文详述。

四、适用边界：何时有效，何时反噬效果

频谱强制并非万能。研究团队清晰界定了其适用边界，这种诚实态度值得称道。

核心结论可概括：频谱强制在同时满足两个条件时效果最佳。第一，AI处理图像采用“粗粒度分块”（即切分成较大方块作为输入单元，导致模型本身已看不到太多高频细节）；第二，图像的高频内容主要为噪声而非有价值的信号。

为验证这两个条件，研究团队设计了系列对照实验，使用三种合成数据集：模拟自然图像统计规律的“幂律”数据（高频内容少）；包含大量清晰边缘的“矩形”数据（高频内容为真实边缘信号）；以及混合多种结构的“结构化”数据。

实验结果明确：在幂律数据上，频谱强制显著提升学习效果；在矩形数据上，它反而损害模型性能——因为屏蔽的高频内容恰是矩形边缘，是AI必须学习的关键信号；在结构化数据上，效果介于两者之间，线性方案接近中性。

分块大小实验同样印证：每张图像切成1024小块时（每块包含更多细节），频谱强制收益最高，改善幅度达70%；切成16个大块时（块太大导致细节被平均），效果反而略微下降。这说明，当AI因分块方式而“看不到”高频细节时，额外屏蔽已不存在的信息无意义；但当AI确实处理高频信息时，显式告知“这些频率是噪声，不必浪费精力”则价值显著。

五、真实数据集验证：量化提升的数值表现

理论与合成实验确具说服力，但最终检验仍需落回真实数据。研究团队选择ImageNet-256作为测试场景，使用JiT（一种像素空间扩散模型架构）作为模型框架。

在最具代表性的配置下（JiT-700M/32，7亿参数，每张256×256图像切成64个图块），仅训练60个轮次，加入频谱强制后，FID分数（衡量生成图像质量，数值越低越好）从24.19降至20.68，提升14.5%；初始分数（衡量生成图像多样性与清晰度，越高越好）从83.28提升至93.96，提升约13%。对比在完全相同的训练配置下进行，唯一变量为是否启用频谱强制。

训练效率提升更为直观：加入频谱强制后，训练60轮次可达原本约90轮次的图像质量，训练120轮次可达原本约145轮次的水平。这意味着在实际应用中可节省约17%至33%的训练时间，且硬件成本几乎未增加。

在更大训练预算下（120轮次），加入频谱强制的模型FID达15.15，不仅优于同轮次基线（16.46），还超越了此前使用类似架构训练约145轮次的参考结果。

对于较小模型，频谱强制在早期训练阶段优势最明显（15轮次时改善11.6%），随训练深入差距逐渐收窄，至200轮次仍保持约1.5%的优势。这一模式表明，频谱强制带来的部分收益来自“快速入门”，但也存在稳定的长期改善。

当分块数量增至256个时，频谱强制效果缩减至约2.2%，基本在统计误差范围内。这完美对应理论预测：更细分块使AI本身就能看到更多高频细节，此时频谱强制贡献有限，但不会造成伤害。

研究团队还对比了多种替代方案：恒定低通滤镜（不随时间变化）反而比基线更差，因其永久屏蔽某些频率，导致AI永远无法学习生成高频细节；空间域高斯模糊效果更差；在损失函数上进行频率加权（而非在输入上加滤镜）也明显不如频谱强制。

六、线性方案为何在ImageNet上优于理论最优解析方案

这一看似反直觉的发现，研究团队给出了详实解释。

解析方案在小分辨率合成数据上优于线性方案2至3倍，但在ImageNet 256×256标准设置、64个图块的配置下反而落后。原因有三：

第一，理论公式中使用的“幂律指数”是对自然图像整体频率分布的全局拟合值，但真实图像在极高频率段能量下降速度更快（受相机传感器噪声、抗混叠处理等因素影响），导致理论公式对高频处理过于激进，屏蔽了本还有用的一部分频率。

第二，64个图块的配置本身已截断大量高频信息，解析方案早期极度保守（截止点长时间停在最低值附近），使AI长时间无法获取足够有效信息，影响梯度质量。

第三，解析方案截止点增长速度在训练早期非常缓慢，导致大部分训练时段内AI能看到的频率范围极其有限，学习效率受损。这三个问题在高分辨率下均会缓解，因此高分辨率玩具实验中解析方案反而更优。

研究团队结论是：理论框架提供了“截止点应随时间单调扩大、终点达到全频率”的正确定性形状，但具体函数形式需根据分辨率和分块大小进行经验性调整。线性方案在多种配置下是足够稳健的默认选择。

七、频谱强制在文生图模型中的迁移表现

研究团队进一步将频谱强制集成至SenseNova-U1，一个“原生视觉-语言模型”（即不依赖独立图像编码器，直接处理原始图像像素块的统一文本-图像模型）。这类模型为控制序列长度，通常采用较粗的图像分块，正好落入频谱强制的有效区间。

在DPG-Bench（文生图综合能力评测基准）上，加入频谱强制后整体分数从64.35提升至67.85，13个子类别中有9个获得改善。提升最集中者为“实体状态”、“实体整体”、“计数”等依赖整体语义结构的维度，而非依赖高频细节的类别——与理论预测一致：语义信息主要编码在低频成分中。

在GenEval（另一文生图能力基准）上，总体分数从3.87%提升至4.56%（相对升幅约18%），其中“单一物体”类别提升2.81个百分点（约19%），“颜色”类别提升1.33个百分点（约16%）。值得注意的是，这些测试在模型训练早期（10万步）进行；需要复杂理解能力的复合构图类别（如“两个物体同框”、“计数”）在此阶段两个模型均为零分，尚未发展出相关能力。

八、配置与细节对效果的系统性影响

研究团队系统测试了若干设计参数的影响，为实际应用频谱强制提供充分参考。

关于最低截止点（控制初始阶段滤镜能通过多少频率），效果呈单调关系：截止点越大（滤镜越宽松），效果越接近基线；截止点越小（滤镜越严格），早期训练越困难，但给AI创造“迫使它专注低频”的压力也越大。默认值0.05在多种配置下表现稳健。

关于图像分辨率的影响，玩具实验中：将图像尺寸从64×64扩大至512×512（保持图块数量固定为64），解析方案相对优势随分辨率增大而显著增强：64×64时基线最优，解析方案比基线差；256×256时解析方案已明显领先基线约15%；512×512时仍保持约3.3%的优势。在真实ImageNet数据上，512×512分辨率下，原本在256×256时与基线持平的配置，加入频谱强制后获得3.4%的FID改善。这表明更高分辨率训练场景是频谱强制更自然的主场。

关于训练与推理计算开销，全文反复确认：频谱强制仅需一次前向和一次逆向2D-DCT变换，计算量约为基线的0.5%，无任何可学习参数，无额外内存占用。推理阶段，同样在每个采样步骤的图像输入上应用相同滤镜，开销同样可忽略不计。

归根结底，这项研究的核心贡献是让AI训练过程中一个长期隐藏的“结构性浪费”变得可见，并以最小代价将其修复。扩散模型在训练时确实存在一个“有效工作区间”——超出此区间，模型要么机械解固定方程，要么做比随机猜测更差的事情。频谱强制将这条边界显式化，通过一个动态变化的滤镜告诉模型“此刻只有这些频率值得学习”，从而让计算力聚焦于真正重要的部分。

对于普通用户，这意味着未来使用类似技术训练的图像生成模型，在同等算力预算下可更快收敛、生成质量更高；对于开发者，这是一个几乎无代价即可接入现有训练流程的改进，尤其对因成本限制不得不采用粗分块方式的原生视觉-语言模型更有意义。

当然，频谱强制并非所有场景的万能解。若数据本身富含高频关键信息（如医学图像中的细微病变），或模型已在用极细的分块方式处理图像，频谱强制的贡献将大幅缩水。研究团队保持清醒的自我评估，未将一种有条件适用的技术包装为无限通用的突破——这种清醒本身值得学习。

Q&A

Q1：频谱强制是否需要修改扩散模型的训练流程？

A：频谱强制无需修改训练的任何核心部分。它仅在图像送入模型之前，加了一个基于当前训练时刻动态调整截止频率的低通滤镜。损失函数、采样器、模型架构、EMA权重全部保持原样。计算量增加约0.5%，无任何新的可学习参数。

Q2：频谱强制在所有图像生成任务中都有效吗？

A：并非所有场景都有效。频谱强制在同时满足两个条件时效果最佳：图像被切成较少、较大的图块（如64块），且图像高频内容主要为噪点而非关键信号。若图像本身富含高频边缘信息（如轮廓鲜明的几何图形），或模型已采用细粒度分块（如256块），效果会明显减弱，甚至可能略微下降。

Q3：频谱强制的线性调度方案为何在ImageNet标准设置下优于理论推导的解析方案？

A：理论上解析方案应最优，但在256×256分辨率、64个图块的标准ImageNet配置下，解析方案对高频内容的屏蔽过于激进，且早期截止点增长太慢，导致模型长时间接收不到足够丰富的训练信号。线性方案增长更均匀，避免了此问题。在高分辨率（512×512以上）场景中，解析方案的优势会重新显现。