参考超分新范式评测：ICLR2026 Ada-RefSR自适应隐式相关建模

2026-06-12阅读 0热度 0

人工智能

扩散模型在单图超分（SISR）领域展现出的细节生成能力确实令人惊叹，但本质上这仍是一个病态问题——缺少外部约束时，模型极易凭空捏造虚假纹理，即所谓“幻觉”。参考超分（RefSR）的思路很直观：从参考图像中提取线索进行矫正。然而现实场景中低质图像的退化过程往往未知且严重，导致低质图与参考图之间的匹配异常困难。

现有痛点：显式的逐Token匹配方案（如ReFIR）在面对强退化时极为脆弱，容易迁移错误纹理，最终产生令人头疼的双重伪影。

核心挑战：如何自适应地利用参考图像？匹配度高时充分借力，匹配度差时果断“断舍离”？

这正是我们提出Ada-RefSR方法要解决的核心问题。下图展示了Ada-RefSR与当前主流方法的对比效果：

超越单图极限（vs. S3Diff）：相比基线方法S3Diff，Ada-RefSR突破了单图信息的瓶颈，能够精准从参考图中提取并注入高频纹理，画面精细度显著提升。
重塑参考范式（vs. ReFIR）：
- 不过度利用：有效抑制了ReFIR常见的误匹配伪影，避免生搬硬套参考图导致的视觉不协调。
- 更充分激活：在ReFIR表现保守、利用率不足的区域，我们的方法实现了“恰到好处”的细节补充，真正做到了对参考信息的深度挖掘与自适应融合。

一、研究背景：解决扩散模型的“幻觉”困境

基于扩散模型的单图超分（SISR）虽然能生成惊艳的细节[1, 2]，但其本质是一个病态（ill-posed）问题。缺乏外部约束时，模型容易产生幻觉（Hallucinations）——即伪造不真实的纹理。参考超分（RefSR）试图通过引入参考图（Ref）[3, 4]来矫正这一问题。但在真实场景中，低质图（LQ）的退化过程通常未知且严重，导致LQ与Ref的匹配极度困难。

我们提出了Ada-RefSR方法，以解决上述难题。

二、技术逻辑：一步式生成的背后

我们提出了“Trust but Verify”（信而有证）范式。先通过注意力机制引入参考信息（Trust），再通过隐式相关性建模进行过滤与验证（Verify）。

2.1 结构概览

以下是我们的方法结构图：

Ada-RefSR基于单步扩散模型（Single-step Diffusion）构建，核心由两个关键路径组成：

ReferenceNet 路径：冻结权重以保留SD-Turbo的高质量特征提取能力，通过Reference Attention (RA)实现LQ与Ref的多尺度特征对齐。
AICG 分支（核心）：充当自适应的“流量调节器”。

2.2 核心突破：自适应隐式相关门控 (AICG)

为实现“Trust but Verify”范式，我们设计了AICG模块。其核心逻辑是通过隐式建模，计算LQ输入与参考图之间的“信任分”，从而动态调节细节注入的强度。

第一步：提炼参考特征 (Feature Summarization)

不同于直接使用海量的参考特征Token（计算量大且含噪声），我们引入了一组可学习的总结Token ( T_S_ )。通过交叉注意力机制，将参考图中的关键纹理和高频信息压缩到极少量的_M_个核心Token中：

核心逻辑：(mathbf{K}_{sum} = text{Attention}(mathbf{T}_S, mathrm{K}_{ref}))
意义：这一步像是一个“过滤器”，只保留参考图中最重要的结构和纹理模式。

第二步：计算隐式相关度 (Implicit Correlation)

我们将LQ图像的查询特征（Query）与压缩后的参考特征进行匹配，生成一张相关性图 (Correlation Map)：

核心逻辑：(mathbf{S}_{map} = text{Softmax}(mathrm{Q}_{lq} cdot mathbf{K}_{sum}^top))
意义：该图反映了LQ的每个区域在参考图中找到“可靠对应物”的概率。

第三步：动态门控调节 (Adaptive Gating)

这是实现鲁棒性的关键。我们将相关性图在Token维度上取平均，并通过Sigmoid函数映射为0到1之间的自适应权重 G。

计算简化版： (mathbf{G} = sigma(text{Mean}(mathbf{S}_{map})))
最终融合： (mathbf{H}_{out} = text{ZeroLinear}(mathbf{G} odot text{Reference Detail}) + text{LQ Context})

技术优势：

防伪影保护：当G趋近于0时，说明参考图在该区域不可靠，模型会自动切换回单图超分模式，有效避免误匹配导致的幻觉伪影。
极轻量化：由于M（总结Token数量）远小于原始特征长度，AICG引入的额外计算量几乎可以忽略不计。
端到端自学习：门控权重的学习无需人工标注，完全由模型在训练过程中根据重建质量自动优化。

三、性能表现：全面领先 SOTA

我们在四个主流Benchmark上验证了Ada-RefSR的实力，具体结果如下图：

| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最优，视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |

关键结论：

全面领跑：在反映感知质量的FID和LPIPS上表现优异，证明生成的图像既清晰又自然。
拒绝幻觉：AICG机制有效减少了因误匹配导致的伪影，其鲁棒性远超现有的显式匹配方案。

四、落地优势：专为移动影像设计

Ada-RefSR的设计初衷不仅是学术性能，更考虑了端侧设备（手机）的部署需求：

极速推理：采用单步生成（Single-step）架构，相比传统多步迭代的扩散模型，推理速度提升了数十倍，真正具备在手机端侧实时处理的可能性。
计算高效：AICG模块设计精巧，仅引入极少量可学习参数，且能通过bf16量化等手段进一步压缩，对显存极为友好。
极致鲁棒：手机拍摄场景复杂（如变焦参考、不同光照参考），AICG的门控机制能有效防止在参考图不相关时“带偏”画质，保证了修复结果的下限。

五、总结

Ada-RefSR通过“Trust but Verify”这一简洁而深刻的原则，利用隐式相关性建模解决了RefSR在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角，也为高性能、低功耗的影像修复落地指明了方向。