文生图模型忘词？Prompt Reinjection无需训练提升指令遵循

2026-06-13阅读 0热度 0

Pro

本文第一作者姚宇轩为复旦大学本科四年级学生，即将在复旦与上海创智学院攻读博士，研究方向为多模态理解生成模型；复旦大学硕士研究生陈宇轩为共同第一作者。复旦大学教授、上海创智学院全时导师朱思语为通讯作者。

近两年，文生图技术迭代迅猛。从Stable Diffusion到FLUX、Qwen-Image，扩散模型已能产出高分辨率图像，并应对日趋复杂的文本指令。

但当提示词堆叠多个对象、颜色属性、数量关系或空间方位时，模型频繁出现“描述与图像错位”的硬伤。

来自复旦大学、上海创智学院、上海科学智能研究院的联合研究指出，根因可能隐藏在多模态扩散Transformer（MMDiT）内部——一种被称为Prompt Forgetting（提示词遗忘）的现象。

团队发现，在MMDiT的去噪流程中，文本分支里的提示词表征会随网络层数加深而逐步丢失细粒度语义。为此，他们提出免训练、仅推理时生效的针对性方案——Prompt Reinjection，通过将浅层文本特征回注到深层Transformer块，遏制提示词信息逐层衰减。

该论文已被ICML 2026接收。

核心问题：模型并非没读懂提示词，而是在深层逐步“遗忘”

传统文生图扩散模型常以文本为外部条件，通过cross-attention喂入图像去噪器。而SD3、FLUX、Qwen-Image等MMDiT架构中，文本token与图像latent token在统一Transformer堆栈里共同演化。

这种设计增强了跨模态交互，却也埋下隐患：图像token受去噪目标直接监督，文本token仅通过影响图像生成间接更新。换言之，模型优化的主目标仍是图像latent空间中的去噪误差，而非确保深层文本表示保留完整语义。

团队将这一现象命名为Prompt Forgetting：随着网络加深，文本分支中原本可恢复的token级信息逐渐不可恢复。论文借助CKNNA、PCA可视化及逐层probing实验验证了这一点。

结果显示，在SD3、SD3.5和FLUX中，文本表征的局部语义结构随深度逐步崩塌，probe对名词、形容词、数量词及空间关系等token类别的识别准确率持续下降，空间关系词受影响最大。

这解释了为何文生图模型在“一个物体在另一个物体上方”“A在B右边”“生成四个对象”这类看似基础的任务中频频失手：模型浅层可能仍保留这些信息，但到了深层生成阶段，相关语义已被大幅削弱。

直击遗忘：把浅层提示词特征重新注入深层网络

基于上述发现，团队提出Prompt Reinjection。思路极简：既然浅层文本特征仍保有较完整的提示词语义，就在推理时将这些浅层特征回注至后续深层MMDiT block。

不过，直接相加的注入方式在某些模型上表现不稳定——不同层间的文本特征可能存在明显的分布差异与几何空间偏差。论文为此额外设计了两个对齐模块：

第一是Distribution Anchoring：通过归一化与统计量恢复，让浅层特征与目标层特征在数值尺度上更匹配，避免注入后破坏后续Transformer block的正常生成分布。
第二是Geometry Alignment：团队采用正交Procrustes变换，对浅层与深层文本特征进行几何对齐，使浅层语义以更恰当的方向融入深层语义空间。

最终，Prompt Reinjection形成一种训练无关的推理时增强机制：无需重新训练模型、无需改动参数，仅在生成过程中对文本分支做轻量干预。

实验结果：语义遵循增强，生成质量保持

团队在五款主流MMDiT文生图模型上做了系统评估——SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1和Qwen-Image，并在GenEval、DPG-Bench、T2I-CompBench++等多个基准上评测文本-图像对齐能力与指令遵循水平。

实验显示，Prompt Reinjection在不同模型与任务上均带来稳定增益。以GenEval为例，SD3.5与HunyuanImage-2.1整体分数分别提升6.48%和7.75%。

更关键的是，增益并非均匀分布所有子任务，而是集中体现在依赖细粒度文本理解的场景——属性绑定、数量理解、多对象组合及空间关系建模。尤其在GenEval的position任务中，Prompt Reinjection带来最明显、最稳定的提升，这与前文probing实验中“空间关系词最易遗忘”的发现互为印证。

视觉质量方面，Prompt Reinjection并未以牺牲图像质量换取更好的语义遵循。相反，该方法在HPSv2、ImageReward、PickScore和CLIP等指标上整体稳定，部分指标还实现小幅提升。

这表明，Prompt Reinjection并非单纯刷高语义遵循分数，而是在保持甚至提升视觉质量的同时，让生成结果更精准，从而具备更强的真实场景应用价值。

此外，该方案在推理阶段只引入极小的额外开销。

团队在SD3-medium上的测试显示，基础版reinjection几乎不增加计算成本：未使用Distribution Anchoring和Geometry Alignment时，额外FLOPs仅为单个Transformer block的“0.00002x”；即便采用完整对齐版Prompt Reinjection，额外FLOPs也仅约“0.088x”。

这意味着Prompt Reinjection能在几乎不影响推理成本的前提下，大幅提升模型生成可靠性。

总结与展望

这项工作的价值不止于提出一种提升文生图效果的推理时技巧。更重要的是，它揭示了当前MMDiT架构中一个容易被忽视的内部机制问题：当文本token与图像token在同一个Transformer Backbone中逐层共同演化时，由于文本分支缺乏直接监督，提示词语义并不一定能在深层表示中保持稳定。

换言之，模型虽然在输入端接收了完整提示词，但在逐层去噪与跨模态交互过程中，部分细粒度语义可能被逐渐削弱甚至遗忘。

过往许多文生图改进方法聚焦于注意力控制、布局约束、偏好优化或训练数据增强，而这篇论文从模型内部的文本token演化出发，指出“文本条件在深层是否仍然有效”本身就是影响复杂指令遵循能力的关键因素。Prompt Reinjection正是基于这一发现提出的轻量化解决方案：通过在推理阶段重新注入浅层文本特征，使模型在不重新训练、不改变参数的情况下，更好地保留数量、颜色属性、空间关系和复杂描述等细粒度信息，同时维持整体图像质量与美观度。

从更长远的角度看，Prompt Reinjection不仅是一种即插即用的增强方法，也为理解和改进未来扩散生成模型的基础架构提供了有价值的线索。

它表明，当前MMDiT架构在跨模态联合建模中仍可能存在文本语义保持不足的问题，而如何在深层网络中持续维护稳定、可用的文本条件，可能成为下一代可控生成模型设计的重要方向。

文生图模型忘词？Prompt Reinjection无需训练提升指令遵循

相关阅读

最新教程

最新资讯