文生图模型忘词?Prompt Reinjection无需训练提升指令遵循

2026-06-13阅读 0热度 0
Pro

本文第一作者姚宇轩为复旦大学本科四年级学生,即将在复旦与上海创智学院攻读博士,研究方向为多模态理解生成模型;复旦大学硕士研究生陈宇轩为共同第一作者。复旦大学教授、上海创智学院全时导师朱思语为通讯作者。

ICML 2026|文生图模型也会「忘词」?复旦创智等提出Prompt Reinjection,无需训练提升文生图指令遵循能力

近两年,文生图技术迭代迅猛。从Stable Diffusion到FLUX、Qwen-Image,扩散模型已能产出高分辨率图像,并应对日趋复杂的文本指令。

但当提示词堆叠多个对象、颜色属性、数量关系或空间方位时,模型频繁出现“描述与图像错位”的硬伤。

来自复旦大学、上海创智学院、上海科学智能研究院的联合研究指出,根因可能隐藏在多模态扩散Transformer(MMDiT)内部——一种被称为Prompt Forgetting(提示词遗忘)的现象。

团队发现,在MMDiT的去噪流程中,文本分支里的提示词表征会随网络层数加深而逐步丢失细粒度语义。为此,他们提出免训练、仅推理时生效的针对性方案——Prompt Reinjection,通过将浅层文本特征回注到深层Transformer块,遏制提示词信息逐层衰减。

该论文已被ICML 2026接收。

核心问题:模型并非没读懂提示词,而是在深层逐步“遗忘”

传统文生图扩散模型常以文本为外部条件,通过cross-attention喂入图像去噪器。而SD3、FLUX、Qwen-Image等MMDiT架构中,文本token与图像latent token在统一Transformer堆栈里共同演化。

这种设计增强了跨模态交互,却也埋下隐患:图像token受去噪目标直接监督,文本token仅通过影响图像生成间接更新。换言之,模型优化的主目标仍是图像latent空间中的去噪误差,而非确保深层文本表示保留完整语义。

团队将这一现象命名为Prompt Forgetting:随着网络加深,文本分支中原本可恢复的token级信息逐渐不可恢复。论文借助CKNNA、PCA可视化及逐层probing实验验证了这一点。

结果显示,在SD3、SD3.5和FLUX中,文本表征的局部语义结构随深度逐步崩塌,probe对名词、形容词、数量词及空间关系等token类别的识别准确率持续下降,空间关系词受影响最大。

这解释了为何文生图模型在“一个物体在另一个物体上方”“A在B右边”“生成四个对象”这类看似基础的任务中频频失手:模型浅层可能仍保留这些信息,但到了深层生成阶段,相关语义已被大幅削弱。

直击遗忘:把浅层提示词特征重新注入深层网络

基于上述发现,团队提出Prompt Reinjection。思路极简:既然浅层文本特征仍保有较完整的提示词语义,就在推理时将这些浅层特征回注至后续深层MMDiT block。

不过,直接相加的注入方式在某些模型上表现不稳定——不同层间的文本特征可能存在明显的分布差异与几何空间偏差。论文为此额外设计了两个对齐模块:

  • 第一是Distribution Anchoring:通过归一化与统计量恢复,让浅层特征与目标层特征在数值尺度上更匹配,避免注入后破坏后续Transformer block的正常生成分布。

  • 第二是Geometry Alignment:团队采用正交Procrustes变换,对浅层与深层文本特征进行几何对齐,使浅层语义以更恰当的方向融入深层语义空间。

最终,Prompt Reinjection形成一种训练无关的推理时增强机制:无需重新训练模型、无需改动参数,仅在生成过程中对文本分支做轻量干预。

实验结果:语义遵循增强,生成质量保持

团队在五款主流MMDiT文生图模型上做了系统评估——SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1和Qwen-Image,并在GenEval、DPG-Bench、T2I-CompBench++等多个基准上评测文本-图像对齐能力与指令遵循水平。

实验显示,Prompt Reinjection在不同模型与任务上均带来稳定增益。以GenEval为例,SD3.5与HunyuanImage-2.1整体分数分别提升6.48%和7.75%。

更关键的是,增益并非均匀分布所有子任务,而是集中体现在依赖细粒度文本理解的场景——属性绑定、数量理解、多对象组合及空间关系建模。尤其在GenEval的position任务中,Prompt Reinjection带来最明显、最稳定的提升,这与前文probing实验中“空间关系词最易遗忘”的发现互为印证。

视觉质量方面,Prompt Reinjection并未以牺牲图像质量换取更好的语义遵循。相反,该方法在HPSv2、ImageReward、PickScore和CLIP等指标上整体稳定,部分指标还实现小幅提升。

这表明,Prompt Reinjection并非单纯刷高语义遵循分数,而是在保持甚至提升视觉质量的同时,让生成结果更精准,从而具备更强的真实场景应用价值

此外,该方案在推理阶段只引入极小的额外开销。

团队在SD3-medium上的测试显示,基础版reinjection几乎不增加计算成本:未使用Distribution Anchoring和Geometry Alignment时,额外FLOPs仅为单个Transformer block的“0.00002x”;即便采用完整对齐版Prompt Reinjection,额外FLOPs也仅约“0.088x”。

这意味着Prompt Reinjection能在几乎不影响推理成本的前提下,大幅提升模型生成可靠性

总结与展望

这项工作的价值不止于提出一种提升文生图效果的推理时技巧。更重要的是,它揭示了当前MMDiT架构中一个容易被忽视的内部机制问题:当文本token与图像token在同一个Transformer Backbone中逐层共同演化时,由于文本分支缺乏直接监督,提示词语义并不一定能在深层表示中保持稳定。

换言之,模型虽然在输入端接收了完整提示词,但在逐层去噪与跨模态交互过程中,部分细粒度语义可能被逐渐削弱甚至遗忘。

过往许多文生图改进方法聚焦于注意力控制、布局约束、偏好优化或训练数据增强,而这篇论文从模型内部的文本token演化出发,指出“文本条件在深层是否仍然有效”本身就是影响复杂指令遵循能力的关键因素。Prompt Reinjection正是基于这一发现提出的轻量化解决方案:通过在推理阶段重新注入浅层文本特征,使模型在不重新训练、不改变参数的情况下,更好地保留数量、颜色属性、空间关系和复杂描述等细粒度信息,同时维持整体图像质量与美观度。

从更长远的角度看,Prompt Reinjection不仅是一种即插即用的增强方法,也为理解和改进未来扩散生成模型的基础架构提供了有价值的线索。

它表明,当前MMDiT架构在跨模态联合建模中仍可能存在文本语义保持不足的问题,而如何在深层网络中持续维护稳定、可用的文本条件,可能成为下一代可控生成模型设计的重要方向。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策