南洋理工大学AI图像生成零成本训练加速评测

2026-06-22阅读 0热度 0

图像生成

南洋理工大学S-Lab实验室最新研究成果已以预印本形式发布于arXiv，编号2606.15236。论文提出的核心观点令人耳目一新：在AI图像生成训练过程中，相当一部分算力被白白浪费。更关键的是，研究团队给出了一种几乎零成本的修复方案，并将其命名为频谱强制（Spectral Forcing，简称SF）。

先交代背景。谈及AI绘画，多数人第一时间想到的是那些能凭空生成逼真画面的模型。这些模型背后大多依赖扩散模型技术。其工作原理很形象：好比一张清晰照片被人逐步添加噪点直至变成雪花屏；随后反向训练AI从雪花屏中一步步还原出原始照片。

这个过程听起来合理，但南洋理工大学团队发现了一个长期被忽视的浪费现象：AI学习去噪的整个过程中，相当一部分计算力花在了毫无意义的地方。这不仅是一个理论猜想，他们不仅定位了问题，还给出了修复方案。

一、AI画图时究竟在“看”什么？一个关于噪音与信号的故事

要理解这项研究解决的问题，需先弄清楚AI在训练时面临的具体情境。

以当前主流的矫正流扩散训练方式为例。任意训练时刻，AI看到的都是一张“半成品图”——介于纯随机噪点和原始清晰照片之间。训练时刻越接近起点（纯噪点阶段），图像越模糊混乱；越接近终点（清晰照片），图像越真实。AI的任务是预测“应当往哪个方向移动才能得到真实图像”。

这里存在关键规律。自然图像中普遍存在一个现象：图像的细节（高频信息，如纹理、边缘锯齿）天生比粗略轮廓（低频信息，如大块颜色、整体形状）携带的能量少得多。用声音类比：低频如同低沉的鼓声，穿透力强、能量大；高频如同细碎的沙沙声，微弱易被淹没。当噪点加入图像时，微弱的高频细节信息几乎立即被噪点覆盖。

研究团队通过数学推导，画出了一条清晰界线：任何给定训练时刻，图像中频率超过某个临界值的细节已被噪点完全淹没，无法从中提取有用信息。这条临界线可用公式精确描述，随训练时刻向清晰照片推进而持续扩展，让更多细节频率“露出水面”。

这本是中性事实，但问题在于AI并不知道这条界线存在。它需要在每个时刻同时处理图像所有频率——包括那些被噪点完全覆盖、不含任何有用信息的高频部分。换言之，AI花费大量精力学习一堆毫无意义的内容。

二、被浪费的计算力：AI在“学习”毫无意义的东西

为验证这一猜想，团队设计了一个简单但极具说服力的实验。他们训练了一个小型AI模型在合成数据上学习，检查模型在每个“时刻-频率”组合上的表现。关键对比是：AI的预测与最简单的基线——即“什么都不做、直接输出零”相比，效果究竟好多少？

结果呈现出一个清晰的楔形区域。在低频区域及训练时刻靠近清晰图像的区域，AI确实在做有价值的工作，学到了数据的真实分布。但在高频、且时刻靠近噪点的区域，出现了两种情况：要么AI的预测退化成一个固定数学公式（因为噪点覆盖了信号，AI只能机械地去除噪点，与数据本身无关），要么AI的预测甚至不如最简单的基线方案。

换句话说，AI将大量计算资源投入两类毫无意义的事：一类是解固定方程，另一类是连方程都未解好。

更具说服力的是，团队将相同检验方法应用于真实大型模型——在ImageNet数据集上训练的模型。结果同样清晰地发现了这个“楔形结构”。那些高频、早期时刻的区域，AI表现甚至不如零预测基线。这表明，算力浪费并非理论推演，而是真实存在于实际模型中的现象。

三、频谱强制：一把随时间伸缩的“低通滤镜”

问题找到后，解决方案便顺理成章。能否在每个训练时刻，直接屏蔽那些被噪点覆盖、毫无价值的高频信息，只让AI看到真正有用的部分？

这就是频谱强制。其工作原理可简单理解为一个滤镜。摄影中，低通滤镜可使图像柔和，滤除细碎噪点和锐利边缘，仅保留整体颜色和轮廓。频谱强制做了类似的事，但有两个关键差异：第一，它基于数学推导出的“有用信号界线”设定滤镜截止点；第二，截止点随训练时刻动态变化。靠近噪点的时刻，截止点很低，仅允许极少量低频信息通过；随着时刻向清晰图像推进，截止点不断扩展，允许越来越多频率进入，直至最终时刻完全取消滤镜，让AI看到完整图像。

技术上，该滤镜采用二维离散余弦变换（2D-DCT）实现。这是一种将图像“分解”为不同频率成分的数学工具，与JPEG图片压缩思路一致。具体流程：每步训练中，先将当前时刻的含噪图像进行DCT变换，然后用软性圆形遮罩将超出截止半径的高频系数乘以接近零的权重，最后做逆变换还原图像，送入AI模型。整个操作不引入任何可学习参数，计算量约为总训练成本的0.5%。且完全不改动训练损失函数、采样器或其他组件。

截止点变化曲线（即“调度方案”）是另一个重要设计选择。团队测试了多种方案：线性增长、平方增长、余弦曲线增长，以及直接由理论公式推导出的“解析方案”。线性方案最简单，截止点随时间均匀扩大；解析方案完全跟随理论预测的信号界线移动。实验中，线性方案在ImageNet标准设置下表现最佳，而解析方案在更高分辨率场景中优势更明显。背后原因后文详述。

四、什么情况下有效，什么情况下会适得其反

频谱强制并非万能。团队用大量篇幅清晰界定其适用边界，这种诚实态度值得称道。

核心结论可概括为一句话：频谱强制在两个条件同时满足时效果最好。第一，AI处理图像的方式是“粗粒度分块”（将图像切成较大方块作为输入单元，导致模型本身已看不到太多高频细节）；第二，图像的高频内容主要为噪点而非有价值信号。

为验证这两个条件，他们设计了一系列精心对照实验。使用三种合成数据集：模拟自然图像统计规律的“幂律”数据（高频内容少，符合自然图像规律）；包含大量清晰边缘的“矩形”数据（高频内容是真实关键信号）；混合多种结构的“结构化”数据。

实验结果清晰：在幂律数据上，频谱强制显著改善学习效果；在矩形数据上，频谱强制反而损害模型——因为它屏蔽的高频内容正是矩形边缘，是AI必须学习的关键信号；在结构化数据上，效果介于两者之间，线性方案接近中性。

同样，在分块大小实验中也如此。当每张图像被切成1024个小块时（块小，每块包含更多细节），频谱强制的收益最高，改善幅度达70%；当每张图像只被切成16个大块时（块大，已平均掉大量细节），效果反而略微下降。这说明，当AI的输入因分块方式而“看不到”高频细节时，额外屏蔽这些不存在的信号意义不大；但当AI确实在处理高频信息时，显式告知它“这些频率都是噪点，别浪费精力”则很有价值。

五、在真实数据集上的表现：数字会说话

理论和合成实验已具说服力，但最终检验需放在真实数据上。团队选择ImageNet-256作为测试场景，模型框架为JiT（一种像素空间扩散模型架构）。

在最具代表性的配置下——JiT-700M/32（7亿参数级别，每张256x256图像切成64个图块），仅训练60个轮次，加入频谱强制后，FID分数（衡量生成图像质量，越低越好）从24.19降至20.68，提升幅度达14.5%；初始分数（衡量多样性和清晰度，越高越好）从83.28提升至93.96，提升约13%。这一对比基于完全相同的训练配置，唯一变量仅为是否启用频谱强制。

更能说明问题的是训练效率。加入频谱强制后，训练60个轮次即可达到原本需约90个轮次才能获得的图像质量，训练120个轮次即可达到原本约145个轮次的水平。这意味着实际使用中可节省约17%至33%的训练时间，而硬件成本几乎没有增加。

在更大训练预算下，至120个轮次时，加入频谱强制的模型FID达到15.15，不仅优于相同轮次的基线（16.46），还超越了此前发表的使用类似架构训练约145个轮次的参考结果。

在较小模型（JiT-130M/32，同样64个图块）上，频谱强制在早期训练阶段（15个轮次时改善11.6%）优势最明显。随着训练深入，差距逐渐收窄，至200个轮次时仍保持约1.5%的优势。该模式表明，频谱强制带来的部分收益来自“更快入门”，但也包含稳定存在的长期改善。

当分块数量增至256个（即JiT-130M/16，使用较小图块切割方式）时，频谱强制效果缩减至约2.2%，基本在统计误差范围内。这完美对应理论预测：更细的分块让AI自身就能看到更多高频细节，此时频谱强制贡献有限，但不会造成伤害。

团队还对比了多种替代方案。恒定低通滤镜（不随时间变化）反而比基线更差，因它永久屏蔽某些频率，导致AI永远无法学习生成那些高频细节；空间域高斯模糊效果更差；在损失函数上做频率加权而非在输入上做滤镜，也明显不如频谱强制。此前提出的“模糊扩散”和“DCT空间扩散”等方法，在同等条件下同样不如频谱强制。

六、线性方案为何在ImageNet上胜过理论最优方案？

这个结果看似反直觉。团队给出了详细解释。

解析方案（截止点完全跟随理论推导的信号界线移动）在小分辨率合成数据上比线性方案强2到3倍。但在ImageNet的256x256标准设置、64个图块配置下，反而输给线性方案。原因有三点：

首先，理论公式中使用的“幂律指数”是对自然图像整体频率分布的全局拟合值。但真实图像在极高频率段的能量下降速度比全局拟合更快。这是由于相机传感器噪点、抗混叠处理等因素，导致理论公式对高频部分处理过于激进，把本来还有一点用的频率也屏蔽了。

其次，在64个图块配置下，图像分块本身就已截断大量高频信息。解析方案在早期极度保守，截止点长时间停留在最低值附近，导致AI长时间无法看到足够多的有效信息，影响梯度质量。

第三，解析方案中截止点增长速度在训练早期非常缓慢，使得大部分训练时间内AI能看到的频率范围极其有限，学习效率受损。这三个问题在更高分辨率（如512x512）时会得到缓解。因此在更高分辨率玩具实验中，解析方案反而更优。

团队结论是：理论框架提供了“截止点应随时间单调扩大、在终点达到全频率”的正确定性形状，但具体函数形式在实际使用中需根据分辨率和分块大小做经验性调整。线性方案是一个在多种配置下均足够稳健的默认选择。

七、在文字生成图片模型中的迁移表现

团队进一步将频谱强制插入SenseNova-U1——一个“原生视觉-语言模型”，即不依赖独立图像编码器、直接处理原始图像像素块的统一文本-图像模型。这类模型为控制序列长度通常也采用较粗的图像分块，正好落在频谱强制的有效区间内。

在DPG-Bench（评测文字生成图像综合能力的基准测试）上，加入频谱强制后，整体分数从64.35提升至67.85。涵盖的13个子类别中，9个获得改善。提升最集中的子类别是“实体状态”、“实体整体”、“计数”等需要捕捉整体语义结构的维度，而非依赖高频细节的类别。这与理论预测一致，因为这类语义信息主要编码在低频成分中。

在GenEval（另一个专门评测文字生成图像能力的基准测试）上，总体分数从3.87%提升至4.56%，相对提升约18%。其中“单一物体”类别提升2.81个百分点（约19%），“颜色”类别提升1.33个百分点（约16%）。需说明的是，这些测试在模型训练早期（10万步）进行。那些需要理解能力的复合构图类别，如“两个物体同框”、“计数”等，在此阶段两个模型均未发展出相关能力，得分均为零。

八、各项配置和细节对效果的影响

团队还系统性测试了若干设计参数的影响，为希望实际使用频谱强制的人提供充分参考。

关于最低截止点，它控制滤镜在训练最初始时刻能通过的频率量。研究发现，该参数对效果的影响是单调的：数值越大（滤镜越宽松），效果越接近基线；数值越小（滤镜越严格），早期训练越困难，但给AI创造“迫使它专注低频”的压力也越大。默认值0.05在多种配置下表现稳健。

关于图像分辨率的影响，在玩具实验中，将图像尺寸从64x64扩大到512x512（同时保持图块数量固定为64），解析方案的相对优势随分辨率增大而显著增强。在64x64时基线最优，解析方案比基线差；在256x256时解析方案已明显领先基线约15%；在512x512时仍保持约3.3%的优势。在真实ImageNet数据上，在512x512分辨率下，原本在256x256时与基线持平的JiT-130M/32配置，加入频谱强制后获得了3.4%的FID改善。这表明更高分辨率的训练场景是频谱强制更自然的主场。

关于训练与推理的计算开销，全文反复确认：频谱强制仅需一次前向和一次逆向2D-DCT变换，计算量约为基线的0.5%，无可学习参数，无额外内存占用。在推理阶段，同样在每个采样步骤的图像输入上应用相同滤镜，开销同样可忽略不计。

归结起来，这项研究的贡献在于让AI训练过程中一个长期隐藏的“结构性浪费”变得可见，并以最小代价修复。扩散模型在训练时确实存在一个“有效工作区间”。在此区间之外，模型要么机械解固定方程，要么做比随机猜测更差的事情。频谱强制将这条边界显式化，用一个动态变化的滤镜告知模型“现在只有这些频率值得学习”，从而让模型将有限计算力集中在真正重要的地方。

对普通用户而言，这意味着未来使用类似技术训练的图像生成模型，在同等算力预算下可更快收敛、生成质量更高。对开发者而言，这是一个几乎无代价即可接入现有训练流程的改进，尤其对出于成本考虑使用粗分块方式的原生视觉-语言模型，更有意义。

当然，频谱强制并非所有场景的万能解。若数据本身富含高频关键信息（如医学图像中的细微病变），或模型已采用极细的分块方式处理图像，频谱强制的贡献将大幅缩水。团队在这方面保持了相当清醒的自我评估，没有将一项有条件适用的技术包装成无限通用的突破。这份清醒本身值得学习。

若您对这项研究感兴趣，想了解背后完整的数学推导和更多实验细节，可通过arXiv编号2606.15236找到完整论文。

Q&A

Q1：频谱强制（Spectral Forcing）需要修改扩散模型的训练流程吗？

A：好消息是：不需要。频谱强制完全无需改动训练流程的核心部分。它仅在图像送入模型前，增加一个基于当前训练时刻动态调整截止频率的低通滤镜。损失函数、采样器、模型架构、EMA权重全部保持原样。计算量增加约0.5%，无任何新的可学习参数。可谓即插即用。

Q2：频谱强制在所有图像生成任务中都有效吗？

A：并非所有场景都有效。频谱强制在两个条件同时满足时效果最好：图像被切成较少、较大的图块（如64块），且图像的高频内容主要是噪点而非关键信号。当图像本身富含高频边缘信息（如轮廓鲜明的几何图形），或模型本身采用细粒度分块（如256块）时，效果会明显减弱，甚至可能略微下降。

Q3：频谱强制的线性调度方案为什么比理论推导的解析方案在ImageNet标准设置下更好？

A：理论上解析方案应最优，但在256x256分辨率、64个图块的标准ImageNet配置下，解析方案对高频内容的屏蔽过于激进，且早期截止点增长过慢，导致模型长时间接收不到足够丰富的训练信号。线性方案增长更均匀，避免了这一问题。而在更高分辨率（512x512以上）场景中，解析方案的优势会重新显现。