阿里联手港科大突破AI绘图瓶颈：快速出图不忘新技能，破解训练魔咒

2026-05-13阅读 0热度 0

阿里巴巴

这项由香港科技大学、阿里巴巴Z-Image团队、加州大学圣地亚哥分校及香港中文大学联合完成的研究，其技术报告已于2026年5月发布，论文编号为arXiv:2605.05204。技术同行可通过该编号在arXiv平台获取全文以查阅具体实现细节。

一、当AI画师学了新技能，却忘了怎么快速出图

以Z-Image-Turbo和FLUX.2-klein为代表的快速出图模型，已成为当前图像生成领域的效率标杆。它们通过专门的提速训练，仅需四到八步迭代即可输出高质量图像，在保持画质的同时，效率远超传统需要数十甚至上百步的扩散模型。

然而，当需要为这些高效模型注入新知识——例如学习特定角色造型或掌握全新艺术风格时，瓶颈随之出现。沿用标准的微调方法进行训练，往往会严重削弱其快速出图的核心能力。模型可能从四步生成清晰画面，退化为需要更多步骤才能输出模糊的初稿。

这类似于一位擅长速写的画家，在学习新技法后，反而失去了下笔精准的直觉，需要反复修改才能完成作品。

研究团队将此问题界定为“训练测试不一致”。其根源在于，常规微调方法让模型学习从人为添加噪声的图像中预测原始画面，但这些构造的噪声状态与模型实际快速推理时经历的关键步骤轨迹并不匹配。在错误路径上学到的知识，无法在正确的出图轨迹上生效，反而干扰了原有的高效采样机制。

因此，核心挑战明确：必须找到一种方法，使快速出图模型能够持续学习新概念，同时确保其“快、准、稳”的生成能力不受任何损害。

二、“强化学习”的路走不通，“普通补课”的路又太窄

在阐述最终方案前，有必要分析那些被验证无效的路径，以理解其局限性。

首先被排除的是强化学习方案。虽然让模型在自身真实的出图轨迹上通过试错学习，理论上不会破坏快速生成能力，但该方法依赖一个精准的奖励模型来评估图像质量。这对仅拥有图文配对数据、缺乏复杂评分系统的广大开发者和创作者而言，实施门槛过高。

因此，一个更务实的目标被确立：解决方案必须仅依赖标准图文对数据，无需额外奖励模型；同时，训练必须严格基于模型真实的出图轨迹，以避免路径偏差。研究团队最终找到了一个巧妙的突破口。

三、一个意外发现：模型天生就有“参照临摹”的能力

转机源于对模型架构的深入分析。新一代快速出图模型的关键升级在于其文本编码器：它们不再使用传统的T5或CLIP编码器，而是集成了大语言模型或多模态大模型。这相当于将“文字秘书”升级为“图文通才”。

团队进行了一项关键实验：将目标图像与文本描述同时输入这个“通才编码器”，获得融合图文信息的“多模态特征”，并用它引导生成；同时对比仅使用文本特征的生成结果。

实验结果揭示了重要潜力：当模型接收“多模态特征”时，即使未经额外训练，其输出图像也会自发模仿目标图像的概念风格或视觉特征。例如，输入毛绒玩具狼的图片，生成结果会出现造型相似的狼；输入特定港口色调的图片，生成图像也会呈现相近的色彩氛围。这表明模型本身具备“参照临摹”的底层能力。

这一发现开辟了新思路：既然模型能通过“参照特征”获得更强的生成指导，那么就可以利用这一点，构建一个“教师”模型，来指导同一个模型在仅使用“文本特征”时如何学习新知识。

四、D-OPSD：让同一个模型同时扮演学生和老师

基于上述洞察，研究团队提出了D-OPSD方法。其核心机制可通过一个学画场景来类比。

设想一位画家，日常接单时仅接收文字描述（如“一只坐在木地板上的狼形玩具”）进行创作。在培训时，教练会提供一张参考照片供其对照临摹，从而画得更像。D-OPSD的做法是：在训练期间，让这位画家“一人分饰两角”——一个是仅看文字描述作画的“学生”（标准推理模式），另一个是可同时参照目标图片和文字描述的“老师”（增强模式）。学生按照自己常规的四步节奏画出草稿，老师则在相同的这四个步骤上，基于更全面的信息做出判断。最终，用老师的判断来纠正学生的判断，引导学生向老师靠拢。

关键在于，整个学习过程始终发生在学生自己真实的出图轨迹上。老师并非从一个被噪声污染的、与正常出图不同的起点进行指导，而是和学生站在同一条路径的同一位置，只是手中多了一张“参考照片”，因此能给出更具针对性的建议。这从根本上避免了“训练路径”与“推理路径”的偏差，保全了快速出图能力。

从技术实现看，模型在每个出图步骤会预测一个“速度方向”，决定图像如何从噪声演变为清晰画面。D-OPSD让学生在和老师的同一状态点上，分别预测速度方向，并通过最小化两者差异来训练学生。老师的参数通过指数移动平均技术从学生参数平滑更新，这确保了老师既能追踪学生的进步，又不会因学生的单次波动而产生剧烈变化，保障了训练稳定性。

这一机制在语言模型领域已有先例——“在线策略自蒸馏”已在大型语言模型的持续学习中验证有效。D-OPSD的贡献在于，成功将这一思路迁移至图像生成领域，并解决了关键难题：如何在不破坏出图轨迹的前提下，将目标图像的信息有效引入训练过程。

五、实验验证：新知识学到了，老本领也没丢

研究团队在Z-Image-Turbo和FLUX.2-klein两个主流快速出图模型上，对D-OPSD进行了全面评估，涵盖小规模概念定制与大规模风格微调两类场景。

在小规模定制（约4张图）测试中，目标是让模型记住如特定毛绒玩具等概念，并在全新场景描述中生成它。评估指标包括概念相似度、文本跟随能力、图像质量与美学评分。

结果显示，在Z-Image-Turbo上，D-OPSD在图像质量与美学分数上显著优于传统微调，证明其快速出图能力得到完好保留。在概念学习上，D-OPSD与当时先进的PSO方法在相似度上持平，但在文本跟随能力上大幅领先。这表明D-OPSD学到的概念能更好地泛化至训练集未见过的新场景，而PSO则出现了过拟合，更换描述后效果下降。在FLUX.2-klein模型上也观察到高度一致的优势。

在大规模风格微调（2.5万张动漫图）测试中，目标是让模型偏向动漫风格，同时保留原有知识。除了风格相似度，还引入了FID指标以及Geneval、DPG等综合基准来评估模型原有知识的保留情况。

结果更具说服力。经D-OPSD微调的模型，其FID分数远优于其他方法，甚至接近未微调的基础模型，说明风格学习成功且分布自然。更重要的是，在Geneval和DPG基准上，D-OPSD模型的得分与基础模型差距很小，而传统微调方法的得分则大幅下滑。这清晰证明D-OPSD在实现持续学习上的有效性，能显著缓解灾难性遗忘。

六、消融实验：拆开每个零件，看看各自的贡献

为厘清D-OPSD各组件的作用，研究团队进行了一组消融实验，对比了四种训练方案：1）传统目标图像流匹配训练；2）用“老师”生成的样本做流匹配训练；3）在固定数据集上让学生对齐老师预测；4）完整的D-OPSD（在学生自身轨迹上对齐老师）。

实验结果通过两条曲线清晰呈现。在图像质量曲线上，传统方法随训练步数增加持续下滑，印证了“能力受损”问题；而三种涉及“老师”的蒸馏方案，质量均保持稳定甚至提升，说明蒸馏思路是保护出图能力的关键。在概念相似度曲线上，完整的D-OPSD收敛速度最快，学习效率最高。

此外，关于“老师”模型的构建方式也经过了精细调试。直接使用学生副本会导致训练崩溃；使用冻结的原始模型作为老师则效果有限；最终，采用高平滑系数的指数移动平均来更新老师参数，取得了最佳效果，能在保持训练稳定的同时，有效追踪学生的学习进程。

七、技术细节：为什么直接换个VLM编码器行不通

在工程实现中，团队遇到了一个具体挑战。Z-Image-Turbo和FLUX.2-klein均使用Qwen3-4B作为文本编码器。为了让“老师”能处理多模态输入，最直接的想法是将编码器替换为对应的多模态版本Qwen3-VL-4B。

但测试发现，直接替换会导致生成图像出现高频噪点和过度锐化。问题根源在于“特征空间不一致”：Qwen3-VL虽然基于Qwen3-LM继续训练，增强了多模态能力，但其输出的特征分布已经偏离了绘图模型原始训练所适应的分布。

解决方案颇具创意：进行“参数拼接”。保留Qwen3-VL的视觉感知部分，但将其语言处理部分的参数替换回Qwen3-4B的参数。这样，模型保留了理解图像的能力，同时输出的特征分布又重新对齐了绘图模型的训练环境。这相当于将VLM“回退”到视觉能力已具备、但语言参数尚未大幅更新的一个中间状态，虽然多模态理解稍弱，但对绘图模型更为友好。

可以预见，随着“原生多模态”架构成为语言模型的主流，未来编码器从一开始就在统一框架内训练，这种特征空间偏离问题将自然消失，D-OPSD的实现也会更加简洁。

八、还有哪些事情做不到，以及未来能走向哪里

研究团队对方法的局限性保持了坦诚。

首先，D-OPSD的训练成本大约是普通微调的两倍（每次迭代需同时计算学生和老师的轨迹），计算量约为四倍。但这个代价被认为是值得的，因为若采用普通微调，之后通常需要额外的“提速蒸馏”来恢复快速出图能力，总体算来D-OPSD反而可能更经济。

其次，方法的有效性依赖于“老师”的能力。如果“老师”模式本身就无法根据给定的多模态特征生成有意义的图像变体（例如，目标是一个特定角色，老师却只生成了普通背景），那么整个训练就会失败，因为老师无法提供有效的指导信号。

展望未来，有几个方向值得探索：可以引入图像编辑或视频生成模型来构建更强的“老师”侧参考信号；可以将D-OPSD与其他训练约束相结合以提升效果；还有一个有趣的设想，即先训练多个不同领域的“专家模型”，再通过D-OPSD将它们的知识蒸馏回一个统一的“基础模型”，实现多能力聚合。

归根结底，这项研究解决了一个看似简单、实则棘手的难题：如何让一个已经掌握“快速出图”内功的AI画师，还能持续学习新题材而不伤及根本。答案的核心是：让模型在自己真实的出图道路上，接受一个“更强自己”的指导，步步为营，稳健进化。

对于开发者和使用者而言，这意味着未来定制专属的快速出图AI时，或许不再需要在新知识学习与速度质量保持之间做痛苦权衡。一个既快又好、还能持续成长的AI画师，正变得越来越触手可及。

Q&A

Q1：D-OPSD方法为什么不会损坏快速出图模型的出图能力？

A：根本原因在于，D-OPSD的训练始终锚定在模型自己真实的四步或八步出图轨迹上。老师和学生都在模型实际行走的路径上进行比较和优化，因此不会干扰其固有的高效采样节奏。相比之下，传统微调是在一条模型从未也不会经历的、由噪声图像构造的路径上学习，自然会破坏原有的出图动力学。

Q2：D-OPSD训练时老师和学生有什么区别？

A：老师和学生本质是同一套模型参数的不同“模式”。学生模式仅接收文本特征输入，与模型正常推理时完全一致；老师模式则接收融合了目标图像信息的“多模态特征”输入，因此能基于更全面的参考信息做出预测。训练的目标是让学生在自己出图的每一步上，其预测方向都逐渐向老师的预测方向对齐，从而将目标图像的信息内化到学生模型中。

Q3：PSO方法和D-OPSD有什么本质差异，为什么PSO会过拟合？

A：核心差异在于训练数据的来源。PSO方法的训练状态和监督信号仍然来源于由目标图像构造的固定数据集，这些状态并非模型当前出图策略所产生的。因此，模型学到的是如何复现训练集中那些特定状态，缺乏泛化性，遇到新的文本描述时表现就会下降。而D-OPSD始终基于模型自身当前出图策略所产生的实时轨迹进行学习，学到的知识更具普适性，能够更好地迁移到未见过的场景描述中。