参考超分新范式评测:ICLR2026 Ada-RefSR自适应隐式相关建模

2026-06-12阅读 0热度 0
人工智能

扩散模型在单图超分(SISR)领域展现出的细节生成能力确实令人惊叹,但本质上这仍是一个病态问题——缺少外部约束时,模型极易凭空捏造虚假纹理,即所谓“幻觉”。参考超分(RefSR)的思路很直观:从参考图像中提取线索进行矫正。然而现实场景中低质图像的退化过程往往未知且严重,导致低质图与参考图之间的匹配异常困难。

现有痛点:显式的逐Token匹配方案(如ReFIR)在面对强退化时极为脆弱,容易迁移错误纹理,最终产生令人头疼的双重伪影。

核心挑战:如何自适应地利用参考图像?匹配度高时充分借力,匹配度差时果断“断舍离”?

这正是我们提出Ada-RefSR方法要解决的核心问题。下图展示了Ada-RefSR与当前主流方法的对比效果:

  • 超越单图极限(vs. S3Diff):相比基线方法S3Diff,Ada-RefSR突破了单图信息的瓶颈,能够精准从参考图中提取并注入高频纹理,画面精细度显著提升。
  • 重塑参考范式(vs. ReFIR):
    - 不过度利用:有效抑制了ReFIR常见的误匹配伪影,避免生搬硬套参考图导致的视觉不协调。
    - 更充分激活:在ReFIR表现保守、利用率不足的区域,我们的方法实现了“恰到好处”的细节补充,真正做到了对参考信息的深度挖掘与自适应融合

一、研究背景:解决扩散模型的“幻觉”困境

基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节[1, 2],但其本质是一个病态(ill-posed)问题。缺乏外部约束时,模型容易产生幻觉(Hallucinations)——即伪造不真实的纹理。参考超分(RefSR)试图通过引入参考图(Ref)[3, 4]来矫正这一问题。但在真实场景中,低质图(LQ)的退化过程通常未知且严重,导致LQ与Ref的匹配极度困难。

我们提出了Ada-RefSR方法,以解决上述难题。

二、技术逻辑:一步式生成的背后

我们提出了“Trust but Verify”(信而有证)范式。先通过注意力机制引入参考信息(Trust),再通过隐式相关性建模进行过滤与验证(Verify)。

2.1 结构概览

以下是我们的方法结构图:

Ada-RefSR基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成:

  • ReferenceNet 路径:冻结权重以保留SD-Turbo的高质量特征提取能力,通过Reference Attention (RA)实现LQ与Ref的多尺度特征对齐。
  • AICG 分支(核心):充当自适应的“流量调节器”。

2.2 核心突破:自适应隐式相关门控 (AICG)

为实现“Trust but Verify”范式,我们设计了AICG模块。其核心逻辑是通过隐式建模,计算LQ输入与参考图之间的“信任分”,从而动态调节细节注入的强度。

第一步:提炼参考特征 (Feature Summarization)

不同于直接使用海量的参考特征Token(计算量大且含噪声),我们引入了一组可学习的总结Token ( T_S_ )。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的_M_个核心Token中:

  • 核心逻辑:(mathbf{K}_{sum} = text{Attention}(mathbf{T}_S, mathrm{K}_{ref}))
  • 意义:这一步像是一个“过滤器”,只保留参考图中最重要的结构和纹理模式。

第二步:计算隐式相关度 (Implicit Correlation)

我们将LQ图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张相关性图 (Correlation Map)

  • 核心逻辑:(mathbf{S}_{map} = text{Softmax}(mathrm{Q}_{lq} cdot mathbf{K}_{sum}^top))
  • 意义:该图反映了LQ的每个区域在参考图中找到“可靠对应物”的概率。

第三步:动态门控调节 (Adaptive Gating)

这是实现鲁棒性的关键。我们将相关性图在Token维度上取平均,并通过Sigmoid函数映射为0到1之间的自适应权重 G

  • 计算简化版: (mathbf{G} = sigma(text{Mean}(mathbf{S}_{map})))
  • 最终融合: (mathbf{H}_{out} = text{ZeroLinear}(mathbf{G} odot text{Reference Detail}) + text{LQ Context})

技术优势:

  • 防伪影保护:G趋近于0时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。
  • 极轻量化:由于M(总结Token数量)远小于原始特征长度,AICG引入的额外计算量几乎可以忽略不计。
  • 端到端自学习:门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。

三、性能表现:全面领先 SOTA

我们在四个主流Benchmark上验证了Ada-RefSR的实力,具体结果如下图:

| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最优,视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |

关键结论:

  • 全面领跑:在反映感知质量的FID和LPIPS上表现优异,证明生成的图像既清晰又自然。
  • 拒绝幻觉:AICG机制有效减少了因误匹配导致的伪影,其鲁棒性远超现有的显式匹配方案。

四、落地优势:专为移动影像设计

Ada-RefSR的设计初衷不仅是学术性能,更考虑了端侧设备(手机)的部署需求:

  • 极速推理:采用单步生成(Single-step)架构,相比传统多步迭代的扩散模型,推理速度提升了数十倍,真正具备在手机端侧实时处理的可能性。
  • 计算高效:AICG模块设计精巧,仅引入极少量可学习参数,且能通过bf16量化等手段进一步压缩,对显存极为友好。
  • 极致鲁棒:手机拍摄场景复杂(如变焦参考、不同光照参考),AICG的门控机制能有效防止在参考图不相关时“带偏”画质,保证了修复结果的下限。

五、总结

Ada-RefSR通过“Trust but Verify”这一简洁而深刻的原则,利用隐式相关性建模解决了RefSR在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角,也为高性能、低功耗的影像修复落地指明了方向。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策