南洋理工AI图像生成新突破:只聚焦有效信息

2026-06-20阅读 0热度 0
图像生成

南洋理工大学S-Lab主导的这项研究,于2026年6月以预印本形式发布。

谈及AI图像生成,多数人首先想到的是那些能凭空构建逼真风景、人像乃至超现实场景的模型。这类模型的核心技术是扩散模型——其工作原理可类比为:先将一张清晰图像逐步加入噪声直至完全随机,再反向训练AI从噪声中还原出原始图像。

南洋理工大学团队发现,扩散模型在去噪过程中存在一个长期被忽视的计算浪费:大量算力被投入到无意义的环节。更关键的是,他们提出的修复方案几乎不消耗额外计算资源,也不改动核心训练流程。该方案被命名为频谱强制(Spectral Forcing,简称SF)

一、AI如何区分噪声与信号:频率视角下的训练本质

理解这项研究的核心,需要先明确扩散模型的训练环境。

以主流训练方式“矫正流扩散”为例,AI在每个训练时刻处理的是一张“半成品图”——它介于纯随机噪声与清晰原始照片之间。越接近起点(纯噪声),图像越模糊;越接近终点(清晰照片),图像越真实。AI的任务是在每个时刻预测“朝哪个方向移动才能获得真实图像”。

自然图像遵循一个普遍规律:高频信息(如纹理、边缘锯齿)的携带能量远低于低频信息(如大块颜色、整体形状)。用声音类比,低频如同低沉的鼓声,能量强且穿透力大;高频则像细碎沙沙声,微弱易被掩盖。

当噪声加入图像时,微弱的高频细节极易被噪声淹没。研究团队通过数学推导得出明确界限:在任意训练时刻,超过某个临界频率的细节已完全被噪声覆盖,无法提取原始图像信息。这条临界线可用公式精确描述,并随训练向“清晰照片”推进而扩展,逐步允许更多有效频率显露。

问题在于,AI并不知晓这条界限的存在。它在每个时刻处理图像的所有频率,包括那些已被噪声覆盖、不含任何有用信息的高频部分。

二、冗余计算:AI在“学习”无意义的固定模式

为验证这一猜测,研究团队设计了一个简单但极具说服力的实验。他们训练了一个小型AI模型,在合成数据上充分学习后,检查模型在每个“时刻-频率”组合上的表现:AI的预测优于“直接输出零”这一最简基线多少?

结果呈现清晰的楔形地图:在低频区域和靠近清晰图像的训练时刻,AI确实做了有价值的工作——它学到了数据真实分布,表现优于“零预测”基线。但在高频区域和靠近噪声的时刻,出现了两种情况:要么AI的预测退化为一个固定数学公式(因为噪声覆盖了信号,AI只能机械去噪,与数据本身无关),要么AI的预测甚至不如最简基线。换言之,AI将大量算力花在了两类无意义任务上:一是解固定方程,二是连方程都未解好。

研究团队在ImageNet(包含大量真实照片的标准测试集)上训练的大型模型中进行相同检验,同样发现了清晰的“楔形结构”。高频、早期时刻区域的预测表现甚至低于零预测基线。计算浪费不仅是理论预测,更是真实模型中切实存在的现象。

三、频谱强制:动态调节的“低通滤镜”

基于问题定位,解决方案应运而生:在每个训练时刻,直接屏蔽那些被噪声覆盖、毫无价值的高频信息,让AI只聚焦于有效部分。

频谱强制的实现可类比摄影中的低通滤镜——它让图像柔化,滤除细碎噪声和锐利边缘,保留整体颜色与轮廓。但频谱强制有两个关键差异:其一,滤镜截止点基于数学推导的“有用信号界线”设定;其二,截止点随训练时刻动态变化——靠近噪声时截止点极低,只允许少量低频通过;随训练推进,截止点逐步扩大,直至最终时刻完全取消滤镜,让AI看到完整图像。

技术上,该滤镜采用二维离散余弦变换(2D-DCT),一种与JPEG压缩同源的数学工具,用于将图像“分解”为不同频率成分。具体流程为:每步训练中,先对当前含噪图像执行DCT变换,再用软性圆形遮罩将超出截止半径的高频系数乘以接近零的权重,最后通过逆变换还原图像,再送入AI模型。该操作不引入任何可学习参数,计算量仅占总训练成本的0.5%,且完全不改动训练损失函数、采样器或其他组件。

截止点的变化曲线(即“调度方案”)是另一重要设计选择。研究团队测试了线性增长、平方增长、余弦增长以及直接理论推导的“解析方案”。线性方案最简单,截止点随时间均匀扩大;解析方案则完全跟随理论信号界线。实验表明,线性方案在ImageNet标准设置下表现最佳,而解析方案在高分辨率场景中优势明显——其原因如下文详述。

四、适用边界:何时有效,何时反噬效果

频谱强制并非万能。研究团队清晰界定了其适用边界,这种诚实态度值得称道。

核心结论可概括:频谱强制在同时满足两个条件时效果最佳。第一,AI处理图像采用“粗粒度分块”(即切分成较大方块作为输入单元,导致模型本身已看不到太多高频细节);第二,图像的高频内容主要为噪声而非有价值的信号。

为验证这两个条件,研究团队设计了系列对照实验,使用三种合成数据集:模拟自然图像统计规律的“幂律”数据(高频内容少);包含大量清晰边缘的“矩形”数据(高频内容为真实边缘信号);以及混合多种结构的“结构化”数据。

实验结果明确:在幂律数据上,频谱强制显著提升学习效果;在矩形数据上,它反而损害模型性能——因为屏蔽的高频内容恰是矩形边缘,是AI必须学习的关键信号;在结构化数据上,效果介于两者之间,线性方案接近中性。

分块大小实验同样印证:每张图像切成1024小块时(每块包含更多细节),频谱强制收益最高,改善幅度达70%;切成16个大块时(块太大导致细节被平均),效果反而略微下降。这说明,当AI因分块方式而“看不到”高频细节时,额外屏蔽已不存在的信息无意义;但当AI确实处理高频信息时,显式告知“这些频率是噪声,不必浪费精力”则价值显著。

五、真实数据集验证:量化提升的数值表现

理论与合成实验确具说服力,但最终检验仍需落回真实数据。研究团队选择ImageNet-256作为测试场景,使用JiT(一种像素空间扩散模型架构)作为模型框架。

在最具代表性的配置下(JiT-700M/32,7亿参数,每张256×256图像切成64个图块),仅训练60个轮次,加入频谱强制后,FID分数(衡量生成图像质量,数值越低越好)从24.19降至20.68,提升14.5%;初始分数(衡量生成图像多样性与清晰度,越高越好)从83.28提升至93.96,提升约13%。对比在完全相同的训练配置下进行,唯一变量为是否启用频谱强制。

训练效率提升更为直观:加入频谱强制后,训练60轮次可达原本约90轮次的图像质量,训练120轮次可达原本约145轮次的水平。这意味着在实际应用中可节省约17%至33%的训练时间,且硬件成本几乎未增加。

在更大训练预算下(120轮次),加入频谱强制的模型FID达15.15,不仅优于同轮次基线(16.46),还超越了此前使用类似架构训练约145轮次的参考结果。

对于较小模型,频谱强制在早期训练阶段优势最明显(15轮次时改善11.6%),随训练深入差距逐渐收窄,至200轮次仍保持约1.5%的优势。这一模式表明,频谱强制带来的部分收益来自“快速入门”,但也存在稳定的长期改善。

当分块数量增至256个时,频谱强制效果缩减至约2.2%,基本在统计误差范围内。这完美对应理论预测:更细分块使AI本身就能看到更多高频细节,此时频谱强制贡献有限,但不会造成伤害。

研究团队还对比了多种替代方案:恒定低通滤镜(不随时间变化)反而比基线更差,因其永久屏蔽某些频率,导致AI永远无法学习生成高频细节;空间域高斯模糊效果更差;在损失函数上进行频率加权(而非在输入上加滤镜)也明显不如频谱强制。

六、线性方案为何在ImageNet上优于理论最优解析方案

这一看似反直觉的发现,研究团队给出了详实解释。

解析方案在小分辨率合成数据上优于线性方案2至3倍,但在ImageNet 256×256标准设置、64个图块的配置下反而落后。原因有三:

第一,理论公式中使用的“幂律指数”是对自然图像整体频率分布的全局拟合值,但真实图像在极高频率段能量下降速度更快(受相机传感器噪声、抗混叠处理等因素影响),导致理论公式对高频处理过于激进,屏蔽了本还有用的一部分频率。

第二,64个图块的配置本身已截断大量高频信息,解析方案早期极度保守(截止点长时间停在最低值附近),使AI长时间无法获取足够有效信息,影响梯度质量。

第三,解析方案截止点增长速度在训练早期非常缓慢,导致大部分训练时段内AI能看到的频率范围极其有限,学习效率受损。这三个问题在高分辨率下均会缓解,因此高分辨率玩具实验中解析方案反而更优。

研究团队结论是:理论框架提供了“截止点应随时间单调扩大、终点达到全频率”的正确定性形状,但具体函数形式需根据分辨率和分块大小进行经验性调整。线性方案在多种配置下是足够稳健的默认选择。

七、频谱强制在文生图模型中的迁移表现

研究团队进一步将频谱强制集成至SenseNova-U1,一个“原生视觉-语言模型”(即不依赖独立图像编码器,直接处理原始图像像素块的统一文本-图像模型)。这类模型为控制序列长度,通常采用较粗的图像分块,正好落入频谱强制的有效区间。

在DPG-Bench(文生图综合能力评测基准)上,加入频谱强制后整体分数从64.35提升至67.85,13个子类别中有9个获得改善。提升最集中者为“实体状态”、“实体整体”、“计数”等依赖整体语义结构的维度,而非依赖高频细节的类别——与理论预测一致:语义信息主要编码在低频成分中。

在GenEval(另一文生图能力基准)上,总体分数从3.87%提升至4.56%(相对升幅约18%),其中“单一物体”类别提升2.81个百分点(约19%),“颜色”类别提升1.33个百分点(约16%)。值得注意的是,这些测试在模型训练早期(10万步)进行;需要复杂理解能力的复合构图类别(如“两个物体同框”、“计数”)在此阶段两个模型均为零分,尚未发展出相关能力。

八、配置与细节对效果的系统性影响

研究团队系统测试了若干设计参数的影响,为实际应用频谱强制提供充分参考。

关于最低截止点(控制初始阶段滤镜能通过多少频率),效果呈单调关系:截止点越大(滤镜越宽松),效果越接近基线;截止点越小(滤镜越严格),早期训练越困难,但给AI创造“迫使它专注低频”的压力也越大。默认值0.05在多种配置下表现稳健。

关于图像分辨率的影响,玩具实验中:将图像尺寸从64×64扩大至512×512(保持图块数量固定为64),解析方案相对优势随分辨率增大而显著增强:64×64时基线最优,解析方案比基线差;256×256时解析方案已明显领先基线约15%;512×512时仍保持约3.3%的优势。在真实ImageNet数据上,512×512分辨率下,原本在256×256时与基线持平的配置,加入频谱强制后获得3.4%的FID改善。这表明更高分辨率训练场景是频谱强制更自然的主场。

关于训练与推理计算开销,全文反复确认:频谱强制仅需一次前向和一次逆向2D-DCT变换,计算量约为基线的0.5%,无任何可学习参数,无额外内存占用。推理阶段,同样在每个采样步骤的图像输入上应用相同滤镜,开销同样可忽略不计。

归根结底,这项研究的核心贡献是让AI训练过程中一个长期隐藏的“结构性浪费”变得可见,并以最小代价将其修复。扩散模型在训练时确实存在一个“有效工作区间”——超出此区间,模型要么机械解固定方程,要么做比随机猜测更差的事情。频谱强制将这条边界显式化,通过一个动态变化的滤镜告诉模型“此刻只有这些频率值得学习”,从而让计算力聚焦于真正重要的部分。

对于普通用户,这意味着未来使用类似技术训练的图像生成模型,在同等算力预算下可更快收敛、生成质量更高;对于开发者,这是一个几乎无代价即可接入现有训练流程的改进,尤其对因成本限制不得不采用粗分块方式的原生视觉-语言模型更有意义。

当然,频谱强制并非所有场景的万能解。若数据本身富含高频关键信息(如医学图像中的细微病变),或模型已在用极细的分块方式处理图像,频谱强制的贡献将大幅缩水。研究团队保持清醒的自我评估,未将一种有条件适用的技术包装为无限通用的突破——这种清醒本身值得学习。

Q&A

Q1:频谱强制是否需要修改扩散模型的训练流程?

A:频谱强制无需修改训练的任何核心部分。它仅在图像送入模型之前,加了一个基于当前训练时刻动态调整截止频率的低通滤镜。损失函数、采样器、模型架构、EMA权重全部保持原样。计算量增加约0.5%,无任何新的可学习参数。

Q2:频谱强制在所有图像生成任务中都有效吗?

A:并非所有场景都有效。频谱强制在同时满足两个条件时效果最佳:图像被切成较少、较大的图块(如64块),且图像高频内容主要为噪点而非关键信号。若图像本身富含高频边缘信息(如轮廓鲜明的几何图形),或模型已采用细粒度分块(如256块),效果会明显减弱,甚至可能略微下降。

Q3:频谱强制的线性调度方案为何在ImageNet标准设置下优于理论推导的解析方案?

A:理论上解析方案应最优,但在256×256分辨率、64个图块的标准ImageNet配置下,解析方案对高频内容的屏蔽过于激进,且早期截止点增长太慢,导致模型长时间接收不到足够丰富的训练信号。线性方案增长更均匀,避免了此问题。在高分辨率(512×512以上)场景中,解析方案的优势会重新显现。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策