CVPR 2026图像修复新范式:字节跳动HiFi-Inpaint

2026-06-13阅读 0热度 0
其他
最近一篇题为《HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images》的论文,在参考引导式修复领域实现了实质性的技术突破。论文全文与开源代码已公开(arXiv: https://arxiv.org/abs/2603.02210,代码: https://correr-zhou.github.io/HiFi-Inpaint),便于研究者复现与深入探索。 该工作的核心创新点在于:面向人物-产品图像生成场景,设计了一个高保真参考引导式修复框架,首要目标是精准保留产品细节。具体技术路径是引入高频图进行像素级监督——相较于传统粗粒度监督方式,这种细粒度、高度针对性的监督机制显著提升了细节还原能力。

方法

本文的研究方法,用一句话概括就是:显式地将高频特征注入网络结构与损失函数中,从而解决扩散模型去噪过程中细节被“平均化”以及隐空间监督粗糙的问题。具体流程如下:首先通过频域高通滤波从参考产品图中提取高频图(包含文字边缘、Logo、精细纹理等关键细节);随后在双流视觉DiT块中设计一个共享增强注意力模块(SEA),用高频图Token替换产品Token,并通过可学习的权重因子自适应地将高频特征注入掩码区域——这种自适应方式相比固定权重能更有效地避免特征冲突与视觉伪影。 HiFi-Inpaint论文方法架构图详解图 上图展示了HiFi-Inpaint框架的整体架构,从数据集构建到模型推理及训练的完整流程一目了然。左侧数据集构建部分通过四个步骤自动生成并清洗高质量训练数据:首先利用FLUX模型根据文本提示生成“人物-产品”双联图;接着通过边缘检测分割出产品和人物;然后利用CLIP相似度与YOLOv8进行语义过滤,确保主体一致性;最后使用Intern-VL检测文本重叠,剔除文字错误的样本。最终获得包含4万张高质量样本的HP-Image-40K数据集。中间是模型的推理与训练机制:输入包括文本提示、人物图像和参考产品图;参考图经过高频提取获得高频图,文本和图像特征分别通过Text Encoder与VAE Encoder编码,在DiT Blocks中融合——双流块利用共享增强注意力机制注入高频特征处理掩码区域,单流块处理未掩码区域,最后由VAE Decoder生成修复后的图像。

HiFi-Inpaint与现有主流方法的定性对比结果图

上图展示了HiFi-Inpaint与ACE、Insert Anything、FLUX-Kontext等主流参考引导修复方法在“人物-产品”图像生成任务上的定性对比结果。每组对比均包含左侧的参考产品图(Ref.)、底部的原始输入图(Input),以及四种方法生成的修复图像与产品细节放大图。实测表明,HiFi-Inpaint在产品细节的高保真度方面表现最为突出,能够精准还原产品上的微小文字(如“LYNAH GLOW”、“NOVA DEW”)、复杂的Logo图案以及瓶身的纹理质感;其他方法在生成过程中普遍出现了文字扭曲、模糊、缺失或Logo变形等细节丢失问题。

HiFi-Inpaint消融实验定性对比图

这张消融实验定性对比图验证了核心组件Shared Enhancement Attention (SEA)与Detail-Aware Loss (DAL)的有效性。对比完整模型(HiFi-Inpaint)与去除SEA模块、以及同时去除SEA和DAL的变体,可以看到:完整模型生成的产品图像在文字清晰度、Logo还原度以及瓶身纹理细节上显著优于消融模型;特别是去掉DAL损失函数后,生成的产品文字变得模糊且无法辨认。这有力地说明,SEA模块对特征融合不可或缺,DAL损失函数则在指导模型精确还原高频细节方面发挥关键作用。

实验

下表是HiFi-Inpaint与Paint-by-Example、ACE、Insert Anything及FLUX-Kontext等主流方法在“人物-产品”图像生成任务上的定量对比结果。评估指标涵盖文本对齐、视觉一致性与生成质量三个维度。从数据来看,HiFi-Inpaint在视觉一致性方面表现最优:CLIP-I(95.0%)、DINO(91.9%)和SSIM(63.4%)得分显著高于其他对比方法,说明其在保持产品外观与参考图高度一致方面极为出色;同时,在高频结构相似性(SSIM-HF)上取得了42.9%的最高分,验证了对产品微小文字和纹理等细节的精准保留能力。虽然在部分生成质量指标上略逊于FLUX-Kontext,但整体综合表现依然处于领先地位。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策