参考超分新范式评测:ICLR2026 Ada-RefSR自适应隐式相关建模
扩散模型在单图超分(SISR)领域展现出的细节生成能力确实令人惊叹,但本质上这仍是一个病态问题——缺少外部约束时,模型极易凭空捏造虚假纹理,即所谓“幻觉”。参考超分(RefSR)的思路很直观:从参考图像中提取线索进行矫正。然而现实场景中低质图像的退化过程往往未知且严重,导致低质图与参考图之间的匹配异常困难。
现有痛点:显式的逐Token匹配方案(如ReFIR)在面对强退化时极为脆弱,容易迁移错误纹理,最终产生令人头疼的双重伪影。
核心挑战:如何自适应地利用参考图像?匹配度高时充分借力,匹配度差时果断“断舍离”?
这正是我们提出Ada-RefSR方法要解决的核心问题。下图展示了Ada-RefSR与当前主流方法的对比效果:
- 超越单图极限(vs. S3Diff):相比基线方法S3Diff,Ada-RefSR突破了单图信息的瓶颈,能够精准从参考图中提取并注入高频纹理,画面精细度显著提升。
- 重塑参考范式(vs. ReFIR):
- 不过度利用:有效抑制了ReFIR常见的误匹配伪影,避免生搬硬套参考图导致的视觉不协调。
- 更充分激活:在ReFIR表现保守、利用率不足的区域,我们的方法实现了“恰到好处”的细节补充,真正做到了对参考信息的深度挖掘与自适应融合。
一、研究背景:解决扩散模型的“幻觉”困境
基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节[1, 2],但其本质是一个病态(ill-posed)问题。缺乏外部约束时,模型容易产生幻觉(Hallucinations)——即伪造不真实的纹理。参考超分(RefSR)试图通过引入参考图(Ref)[3, 4]来矫正这一问题。但在真实场景中,低质图(LQ)的退化过程通常未知且严重,导致LQ与Ref的匹配极度困难。
我们提出了Ada-RefSR方法,以解决上述难题。
二、技术逻辑:一步式生成的背后
我们提出了“Trust but Verify”(信而有证)范式。先通过注意力机制引入参考信息(Trust),再通过隐式相关性建模进行过滤与验证(Verify)。
2.1 结构概览
以下是我们的方法结构图:
Ada-RefSR基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成:
- ReferenceNet 路径:冻结权重以保留SD-Turbo的高质量特征提取能力,通过Reference Attention (RA)实现LQ与Ref的多尺度特征对齐。
- AICG 分支(核心):充当自适应的“流量调节器”。
2.2 核心突破:自适应隐式相关门控 (AICG)
为实现“Trust but Verify”范式,我们设计了AICG模块。其核心逻辑是通过隐式建模,计算LQ输入与参考图之间的“信任分”,从而动态调节细节注入的强度。
第一步:提炼参考特征 (Feature Summarization)
不同于直接使用海量的参考特征Token(计算量大且含噪声),我们引入了一组可学习的总结Token ( T_S_ )。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的_M_个核心Token中:
- 核心逻辑:(mathbf{K}_{sum} = text{Attention}(mathbf{T}_S, mathrm{K}_{ref}))
- 意义:这一步像是一个“过滤器”,只保留参考图中最重要的结构和纹理模式。
第二步:计算隐式相关度 (Implicit Correlation)
我们将LQ图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张相关性图 (Correlation Map):
- 核心逻辑:(mathbf{S}_{map} = text{Softmax}(mathrm{Q}_{lq} cdot mathbf{K}_{sum}^top))
- 意义:该图反映了LQ的每个区域在参考图中找到“可靠对应物”的概率。
第三步:动态门控调节 (Adaptive Gating)
这是实现鲁棒性的关键。我们将相关性图在Token维度上取平均,并通过Sigmoid函数映射为0到1之间的自适应权重 G。
- 计算简化版: (mathbf{G} = sigma(text{Mean}(mathbf{S}_{map})))
- 最终融合: (mathbf{H}_{out} = text{ZeroLinear}(mathbf{G} odot text{Reference Detail}) + text{LQ Context})
技术优势:
- 防伪影保护:当G趋近于0时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。
- 极轻量化:由于M(总结Token数量)远小于原始特征长度,AICG引入的额外计算量几乎可以忽略不计。
- 端到端自学习:门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。
三、性能表现:全面领先 SOTA
我们在四个主流Benchmark上验证了Ada-RefSR的实力,具体结果如下图:
| 数据集 | 指标 | 性能表现 |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最优,视觉自然度显著优于 ReFIR |
| 人脸场景 (Face) | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird) | 结构稳定性 | 在保持语义一致性方面优势明显 |
关键结论:
- 全面领跑:在反映感知质量的FID和LPIPS上表现优异,证明生成的图像既清晰又自然。
- 拒绝幻觉:AICG机制有效减少了因误匹配导致的伪影,其鲁棒性远超现有的显式匹配方案。
四、落地优势:专为移动影像设计
Ada-RefSR的设计初衷不仅是学术性能,更考虑了端侧设备(手机)的部署需求:
- 极速推理:采用单步生成(Single-step)架构,相比传统多步迭代的扩散模型,推理速度提升了数十倍,真正具备在手机端侧实时处理的可能性。
- 计算高效:AICG模块设计精巧,仅引入极少量可学习参数,且能通过bf16量化等手段进一步压缩,对显存极为友好。
- 极致鲁棒:手机拍摄场景复杂(如变焦参考、不同光照参考),AICG的门控机制能有效防止在参考图不相关时“带偏”画质,保证了修复结果的下限。
五、总结
Ada-RefSR通过“Trust but Verify”这一简洁而深刻的原则,利用隐式相关性建模解决了RefSR在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角,也为高性能、低功耗的影像修复落地指明了方向。


