AI生成图片失真难题中山大学Adobe联手突破

2026-06-20阅读 0热度 0

中央大学与Adobe Research联合开展的这项研究，其预印本于2026年6月13日上传至arXiv，编号为arXiv:2606.15158v1。如需深入探究全部技术细节，可直接使用该编号查阅原文。

一、高清参考图经AI处理后细节尽失？问题根源深度解析

想象一下这个场景：你有一张细节丰富的高清参考图，可能是你最钟爱的手提包、一件精致的陶瓷摆件，或是自家猫咪根根分明的毛发。当你将这张图输入AI图像生成工具，希望将物体“合成”到另一张场景图中时，生成的物体却像隔了一层毛玻璃——细节模糊、颜色失真、原本的花纹图案彻底消失，整体质感如同廉价仿制品。

这种令人沮丧的现象，并非AI工具设计者的疏忽，而是几乎所有“参考图引导生成”系统都面临的共性难题。问题根源在于：系统获取参考图后，并非原样处理，而是强制将其缩放到一个固定的低分辨率。这好比一位画师拿到一张A3尺寸的精细素描，却在动笔前先将其缩印成一枚邮票，再依据邮票临摹。邮票上的细节早已丢失，画作自然面目全非。

研究团队将这一领域定义为“参考图引导生成内容”（RefGC），它支撑着图像合成、定制化生成、图像编辑等大量日常功能。该领域长期面临两大叠加挑战：首先，高清参考图在进入AI前即被强制压缩，精细信息大量丢失；其次，AI生成过程中会额外引入自身“创作”的痕迹，即各类生成伪影，包括物体身份失真、细节不一致、纹理丢失和整体质量下降。这两个问题叠加，导致最终生成结果与用户期望之间存在显著差距。

中央大学与Adobe Research决定从根源上解决此问题。他们提出了一个全新的任务框架，命名为“参考图引导生成内容的超分辨率精炼”，缩写为RefGC-SR?。核心思路十分直接：既然AI生成的图片同时存在低分辨率和伪影两个缺陷，为何不在AI生成完成后，再利用用户最初提供的高清参考图进行“后期修复”？这如同一位修复师，手持原件的超高清照片，逐一比对、精细打磨一件粗糙的仿制品，使最终复制品既具备高分辨率，又在细节上忠实还原原件的神韵。

二、问题普遍性量化：四种典型“失真症状”逐一拆解

为便于理解问题的严重程度，研究团队归纳了AI参考图生成过程中最常见的四种“病症”。

第一种为“身份失真”。以一组俄罗斯套娃为例，用户提供的参考图上，套娃拥有精致的绘画细节和特定的面部表情。但AI生成的结果中，套娃的面部完全改变——变成风格迥异的卡通形象，原本的民族风情细腻笔触荡然无存。这如同你让画师画你家的小狗，他却画出了一只完全不同的品种。

第二种为“细节不一致”。例如，一罐果酱的瓶身印有完整的营养成分表和品牌标识，而AI生成的结果中，这些文字变得模糊不清，甚至出现乱码和变形，原始信息完全无法辨认。换言之，你让AI复印一份合同，对方却还回一堆走形的笔画。

第三种为“纹理丢失”。例如，一只蓝紫色的陶瓷兔子摆件，表面本应有细腻的光泽和微妙的色彩变化。AI生成后，表面变得平滑而单调，那种独特的材质感消失得干干净净，看起来如同塑料制品。

第四种为“整体质量下降”。即使物体基本形状大致正确，整张图片也会显得模糊、生硬，彻底缺失真实照片应有的质感和生命力，像一张被反复翻拍过的旧照片。

在此项研究之前，学术界和工业界是否存在其他解决方案？研究团队梳理后发现，现有方法只能解决碎片化问题，无法同时应对所有挑战。

普通图像超分辨率技术（ISR）能将低清图变高清，但它完全按照相机拍摄失真的规律设计，无法理解AI生成的特定失真类型。参考图引导超分辨率技术（RefSR）虽会使用参考图，但同样仅针对自然图像的失真，对AI生成内容特有的问题束手无策。生成内容超分辨率技术（GCSR）专门针对AI合成图片，但它完全不使用参考图，自然无法恢复从参考图中才能获取的特定细节。现有的参考图引导生成内容精炼技术（RefGCR）最接近目标——它能用参考图修正AI生成的伪影，但只能在固定分辨率下工作，无法同时提升图片清晰度。

研究团队专门制作了比较表，展示了所有相关技术在四个关键维度上的表现：是否处理AI生成内容、是否使用高清参考图、是否提升分辨率、是否精炼伪影。结果显示，只有他们提出的RefGC-SR?在四个维度上均满足条件。这一发现表明，他们填补的确实是一个真实存在、长期未被正视的技术空白。

三、训练数据生成：精密的“配对图片制造流水线”

任何AI模型训练都需要大量配对数据，即“输入是什么、期望输出是什么”的样本对。RefGC-SR?需要的是一种三元组：一张含伪影的低分辨率AI生成图（LRGI）、一张高清参考图（HRRI）、以及一张对应的高分辨率真实目标图（HRGT）。这三张图必须描述同一个物体实例，但可以取自不同角度、不同背景。

问题在于，这种三元组数据在现有数据集中根本不存在。普通超分辨率数据集中的“降质”是人为模拟的模糊和噪声，不包含真实的AI生成伪影；而现有的AI生成内容数据集又缺乏配套的高清真实目标图。更棘手的是，如果直接用现有AI图像合成模型来生成LRGI，这些模型会擅自改变物体的姿势和角度，导致LRGI和HRGT之间的姿态对不上——这对训练是致命缺陷，因为模型会误以为自己需要学习“改变姿态”，而非专注于修复细节和提升分辨率。

于是，研究团队设计了一套两阶段的数据构建流水线，从零开始制造这些三元组。

第一阶段专门收集现实世界中的HRRI-HRGT配对。团队从三个高分辨率真实图像和视频数据集中提取素材：ORIDa（提供物体在不同背景下的真实合成图片对）、uCO3D（提供同一物体从多角度拍摄的视频），以及UltraVideo（提供在自然运动中拍摄的多样化视频）。对于视频数据，团队先使用名为Qwen3-VL的视觉语言模型自动筛选出以物体为主体的视频片段，逐帧细化筛选，再利用SAM3（一个专门做图像分割的模型）为物体生成精确的轮廓遮罩。最后，人工审核员进行最终的质量把关和配对确认。这个流程如同在一个巨大的图书馆中，先由AI助手快速翻阅所有书籍，找出可能有用的页面，再让专业编辑逐一确认。

第二阶段负责为每对HRRI-HRGT合成对应的LRGI，这是整套流程中最具创意的环节。研究团队专门设计了一个生成模型，取名为DipRefGC（双联画条件参考图引导生成器）。该模型的核心挑战在于：既要让生成的LRGI在物体外观上忠实于HRRI（因为LRGI应是“试图参照HRRI生成”的结果），又必须让物体的姿态和角度严格对齐HRGT（这样训练时模型才能专注于修复而非学习改变姿态）。

DipRefGC采用了一种“双联画”构图方式——每个条件输入图片都被设计成左右两格拼在一起的形式，如同博物馆中并排展示的两幅相关画作。外观控制部分使用“修复式控制网络”（Inpainting ControlNet）：左格放置从HRRI中提取的物体，右格放置HRGT的背景加上一个遮盖了物体区域的空白遮罩，从而强制模型必须依靠左格HRRI的外观来“填充”右格的空白，自然地产出类似真实AI生成的伪影效果。姿态控制部分则使用另一个“边缘线条控制网络”（Canny ControlNet）：右格展示HRGT中物体区域的轮廓线条，告知模型“生成的物体必须符合这个形状”。两个控制网络分工明确，一个负责“画什么”，一个负责“怎么摆”。

该系统运行在FLUX这个强大的图像生成模型上，采用LoRA（一种轻量级微调技术，如同给大模型贴上专用“补丁”）来适配双控制网络。整个DipRefGC在收集到的HRRI-HRGT配对上进行训练，最终成功生成了姿态一致、包含真实AI伪影的LRGI样本。

最终，这套流水线产出了40,000组训练三元组和200组评估三元组，构成了研究团队所称的RefGC-SR?数据集——据称是该任务领域的第一个真实世界三元组数据集。从DipRefGC的消融实验来看，仅增加Canny边缘控制就能将物体遮罩的IoU（衡量形状匹配程度的指标）从0.480提升至0.601，而针对合成和定制化两种场景进行联合微调后，参考图的身份保留能力进一步提升，与真实AI生成输出之间的分布差距也显著缩小。

四、核心模型工作原理：频率感知实现“粗略轮廓”与“精细纹理”的分离处理

有了数据，研究团队接着搭建了RefGC-SR?模型本身。该模型建立在一个名为FLUX-Kontext的扩散变换器（DiT）骨干模型之上，骨干的所有参数全部冻结不动，仅在其中插入可训练的新模块。

在设计模型之前，团队进行了两项重要的“侦察实验”，这两项发现直接决定了模型的架构走向。

第一个发现来自对FLUX-Kontext自身的频率分析。团队测量了该大模型在每一层神经网络中处理图像时，低频信息（可视为整体轮廓和大色块）和高频信息（可视为细节纹理和边缘）各自的能量变化。结果显示，低频信息在模型最开始的约5%的层中就已迅速稳定下来——表明整体结构在早期层中形成；而高频信息要等到最后约10%的层才突然大量涌现——表明精细细节在晚期层中才被添加上去。这一发现如同观察画家的作画习惯：永远先使用大笔刷确定构图，然后才拿起细笔刷加工细节，次序分明。

第二个发现来自对LRGI、HRRI和HRGT三者关系的分析。团队将这三种图像在模型的理解空间（即潜在特征空间）中进行相似度比较：当比较所有频率成分时，LRGI和HRRI与HRGT的相似度没有明显规律。然而，一旦只提取低频成分进行分析，结果就非常清晰——LRGI的低频成分与HRGT非常接近，而HRRI的低频成分与HRGT差距较大。这说明，从整体结构的角度看，AI生成的低质量图（LRGI）实际上已与期望目标（HRGT）比较接近，真正缺失的是高频细节信息，而这些细节应从HRRI中汲取，而非从LRGI中。

基于这两个发现，团队设计了两大核心组件。

第一个组件名为“频率自适应LoRA专家混合”（FreqMoLE）。如果将模型的每一层比作一个工作岗位，FreqMoLE的做法是在每个岗位上同时安排两位专家：一位“低频专家”（负责整体轮廓和大结构），一位“高频专家”（负责精细纹理和细节）。这两位专家同时工作，但他们的“发言权重”由一个名为“门控值α”的参数控制，且该权重会随层数深度自动变化：在模型的早期层，门控值接近1.0，几乎完全听从低频专家；到了晚期层，门控值逐渐降至接近0，几乎完全听从高频专家。这种安排完美契合了此前发现的“先定结构、后加细节”的规律，让每位专家在最合适的时机发挥最大价值。门控值在训练初期先被固定住，确保早期层和晚期层的职责分工稳定建立，之后再与两位专家一起共同优化。

第二个组件名为“频率损失”（Lf），这是用于指导模型学习方向的“评分标准”。它分为两部分。低频部分的规则是：模型输出的低频成分必须尽量贴近HRGT的低频成分，确保整体结构与期望目标一致，评分时仅计算物体所在区域的差异（通过遮罩限定范围）。高频部分的规则则需更具技巧性：由于HRRI和HRGT拍摄角度不同，无法直接对比像素位置，因此改为对比统计特性——模型输出的高频成分，其平均值和方差应尽量接近HRRI的高频成分，而非直接照搬HRGT。这样模型就能从HRRI处“借鉴”细节的风格和质感，而非死板地复制每个像素。这一设计理念如同让厨师学习一道菜的“味道风格”而非死记每个步骤，从而在不同条件下复现相同的风味。

实际训练中，最终的总体损失函数由三部分组成：来自FLUX-Kontext骨干的标准流匹配损失（LFM，负责主要生成质量监督）、来自ImageCritic研究的注意力对齐损失（Laal，使模型将注意力正确集中在HRRI的物体区域而非背景上），以及团队自己提出的频率损失（Lf）。这三个评分标准各司其职，分别把控“生成质量”、“参考注意力”和“频率信息来源分配”三个维度。

五、实验结果验证：量化指标与人类感知双重佐证

研究团队在两个测试场景下评估了RefGC-SR?模型的表现：一是自家构建的RefGC-SR?评估基准（200组三元组，来自训练集之外的新样本），二是更贴近真实使用场景的“野外测试”（使用四种真实的AI生成模型——DreamFuse、InsertAnything、FreeCus、PersonalizeAnything——来产生LRGI，共200组样本）。

在量化指标上，竞争从多个角度展开：CLIP-I衡量图像内容相似度，DINO衡量特征层相似度，PSNR和SSIM衡量像素级重建精度，LPIPS衡量人类感知层面的图像质量（数值越低越好）。

在RefGC-SR?基准上，RefGC-SR?模型以CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746的成绩全面超越所有对比方法。最接近的竞争者ImageCritic（CVPR‘26）CLIP-I达到0.8542，但在DINO（0.7165）和LPIPS（0.2991）上均明显落后。在野外测试中，RefGC-SR?同样在所有指标上领先，包括合成任务和定制化任务两个子场景中均保持优势。

除了数字指标，研究团队还展示了视觉对比。从定性结果来看，其他方法普遍存在各类问题：有些方法（如DiT4SR）能提升分辨率，但无法修复生成伪影；有些方法（如ImageCritic）能修复部分伪影，但图像变得过于平滑，细节反而更少；有些方法（如ReFIR）在特定细节区域出现幻觉，凭空添加不存在的纹理；还有些方法（如OmniPaint）根本没有有效利用HRRI信息来修复伪影。而RefGC-SR?的输出则在保持整体场景结构的同时，将HRRI中的细节忠实地转移到生成图上。

用户研究的结果更直观。团队邀请了16位参与者，对每个测试样本的四种方法输出（一种SR方法、一种RefSR方法、一种RefGCR方法和本研究方法），从“精炼质量”、“细节恢复质量”、“整体质量”三个维度打分。结果显示，RefGC-SR?在所有三个维度上获得最高分（排名第一）的概率分别高达83%、82%、83%，而其他方法最高分的概率最多仅为8%。反之，RefGC-SR?被评为最差的概率仅为3%到4%，而ImageCritic被评为最差的概率竟高达51%到66%——这与量化指标中ImageCritic排名第二的结果形成鲜明反差。团队解释说，这是因为ImageCritic倾向于输出过度平滑的结果，像素级指标上表现尚可，但人类观察者能明显感受到细节纹理的缺失，认为这是质量下降。这一发现本身也极具价值：量化指标不一定能完整反映人类感知层面的图像质量，尤其是在需要恢复精细细节的任务中。

六、消融实验：拆解分析，每个组件均不可或缺

研究团队还进行了系统性的“拆件测试”（消融实验），逐一评估FreqMoLE和Lf各自的贡献。

当两个组件都移除时（仅保留基础模型），CLIP-I为0.8437，DINO为0.6870，LPIPS为0.3538。单独加入Lf时，DINO跃升至0.7386（提升7.5%），LPIPS降至0.2835（改善19.9%），表明频率损失对物体身份的忠实度和感知质量贡献显著。从视觉上看，没有Lf时，模型会将HRRI的内容直接“注入”到输出中，破坏HRGT的整体结构；加入Lf后，模型学会了既保留HRGT的结构，又高效地从HRRI中借鉴高频细节。单独加入FreqMoLE时，PSNR提升6.0%，CLIP-I提升2.8%，说明层次化的低频/高频专家分工确实有助于提升重建精度。从视觉上看，没有FreqMoLE时，一个透明玻璃杯在输出中变得不透明；加入后，模型正确地恢复了透明感。当两个组件都加入时，所有指标均达到最优：CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746，证明两者扮演着互补而非重叠的角色。

七、泛化能力验证：对商业AI大模型同样有效

研究团队还额外测试了一个极具说服力的场景：如果LRGI来自主流商业AI模型，RefGC-SR?是否仍能发挥作用？他们选取了三款当前广泛使用的商用模型——Gemini 2.5 Flash Image、GPT-Image 1.5，以及开源模型Qwen-Image-Edit，用它们生成LRGI，然后交给RefGC-SR?和其他对比方法处理。

从视觉对比来看，其他方法在面对商业模型输出时仍然存在各自固有的短板：有的方法无法识别并修复商业模型产生的特有伪影，有的在高频细节上出现幻觉，有的根本没利用HRRI的信息。相比之下，RefGC-SR?在三个商业模型的输出上都展现出稳定的修复和超分辨率能力，能够从HRRI中准确地提取细节信息并融入到修复后的图像中。这表明，尽管RefGC-SR?是在自己构建的合成数据上训练的，但它学到的能力具有相当强的泛化性，能够迁移到从未见过的商业AI系统的输出上。

八、研究局限性与未来方向

研究团队在论文中坦率地指出了当前工作的主要局限。首先，训练数据集是使用DipRefGC合成的，并非直接从真实的RefGC管线中采集样本，这意味着数据中的伪影分布可能与真实世界的所有RefGC系统不完全吻合。其次，数据集目前仅涵盖12个物体类别，以物体为中心的场景居多，对人物、复杂背景或非常规场景的覆盖还远远不够。第三，RefGC-SR?模型目前绑定在FLUX-Kontext这个特定的骨干模型上，当HRRI和LRGI之间的视角差异或几何变形非常剧烈时，模型可能难以正确处理。

团队也提出了几个未来改进方向：直接从多种真实RefGC管线中采集LRGI样本以扩展数据集的覆盖面，纳入更多物体类别和场景类型，将方法扩展到其他DiT骨干模型，以及引入具有几何感知能力的参考图匹配机制来应对大视角差的挑战。

归根结底，这项研究从一个看似细小的工程问题出发——AI生成图像的质量和清晰度不够理想——但它触及的却是整个参考图引导生成技术生态中的一个系统性缺陷。研究团队并未试图修改现有的生成模型，而是提出了一个后处理的新任务框架，利用用户本来就有的高清参考图作为修复线索，同时完成超分辨率和伪影精炼两项工作。这一思路的转变——从“改进生成”变为“善用现有资源修复生成结果”——不仅在技术上取得了有据可查的进展，也为实际应用开辟了一条务实的路径：用户无需等待更好的生成模型，只需在生成之后多走一步，就能显著提升最终图像的质量和对参考图的忠实度。对于那些在电商、设计、个人创作等领域大量使用AI生成图像的用户来说，这一步的价值是相当具体且可感知的。

进一步了解技术细节，可通过arXiv编号2606.15158查阅完整论文。

Q&A

Q1：RefGC-SR?技术解决的核心问题是什么？

A：RefGC-SR?解决的是AI参考图引导生成（例如将参考产品图合成到场景中）时产生的两个叠加问题：一是高清参考图在进入AI之前被强制压缩导致细节丢失，二是AI生成过程本身产生的伪影，如物体变形、纹理消失等。该方法在AI生成完成后，利用用户本来提供的那张高清参考图，同时实现伪影修复和分辨率提升。

Q2：DipRefGC是做什么用的，为什么需要专门设计它？

A：DipRefGC是一个专门用于合成训练数据的生成模型。训练RefGC-SR?模型需要大量“低质量AI生成图、高清参考图、高质量目标图”三件套，但这样的数据并不存在。直接使用现成AI生成模型来制造数据的问题在于，它会改变物体姿态，导致训练时模型误学了“纠正姿态”而非“修复细节”。因此，研究团队专门设计了DipRefGC来生成姿态严格一致、同时包含真实AI伪影的低质量图片。

Q3：FreqMoLE与普通LoRA微调有什么不同？

A：普通LoRA仅在每一层插入一套可训练参数。FreqMoLE则在每一层插入两套参数，一套专门处理图像的整体结构信息（低频专家），一套专门处理精细纹理信息（高频专家）。两套参数的“发言权重”随模型层数自动调整：早期层由低频专家主导，晚期层由高频专家主导，从而与FLUX-Kontext模型本身“先定结构再加细节”的内在规律完美匹配。

AI生成图片失真难题中山大学Adobe联手突破

相关阅读

最新教程

最新资讯