腾讯混元SOAR技术革新:AI视觉大模型实现自我纠偏,生成质量再升级
视觉生成模型的后训练,始终面临一个核心挑战:依赖海量人工标注数据,或是受限于奖励模型提供的稀疏反馈信号。是否存在一种方法,能让模型直接从训练数据中学习自我修正?
腾讯混元团队提出的HY-SOAR(Self-Correction for Optimal Alignment and Refinement)提供了一种创新方案。该方法无需奖励模型、偏好标注或负样本,而是直接从高质量数据中解析出轨迹级别的纠正信号,使扩散模型和流匹配模型在去噪过程中即具备自我反思与调整的能力,为后训练开辟了一条高效的新路径。
后训练的核心瓶颈:数据利用效率,而非数据规模
当前扩散模型后训练主要依赖监督微调(SFT)和强化学习(RL)。然而,这两种方法在数据利用层面均存在显著局限。
SFT遵循“学习标准答案”的逻辑,在高质量数据上进行监督训练。但其训练目标仅限于“理想轨迹”——即从真实数据前向加噪得到的标准中间状态。模型在实际推理时遵循的是自身生成的轨迹。一旦早期去噪步骤出现微小偏差,后续状态便会进入模型从未见过的分布区域。SFT完全忽略了数据中蕴含的关于“模型可能如何偏离以及如何纠正”的关键信息。
RL方法则通过奖励模型将高质量数据压缩为单一的终端奖励分数,再用这个稀疏信号优化整个生成轨迹。这个过程本质上是一次有损的信息压缩:数据中丰富的、轨迹级别的细节信息被丢弃,大量可用于指导中间步骤的纠正信号因此丢失。此外,奖励信号的稀疏性还会导致信用分配困难,并可能诱发模型针对奖励函数的“刷分”行为。
一个核心公式是:旗舰模型的最终性能 = 数据质量 × 数据利用率。当数据质量达到高标准后,瓶颈便转向利用率。RL在利用率上打了折扣,而SOAR的目标正是最大化这一利用率。
△ 图1:SFT仅在理想轨迹上训练,浪费了纠偏信息;RL将数据压缩为稀疏奖励,利用率受限;SOAR直接从数据中提取稠密的轨迹纠正信号。
SOAR:为生成模型注入自我反思能力
回顾大语言模型的演进路径:预训练 → SFT → RLHF → 自我反思(以o1/o3为代表的self-correction)。视觉生成模型正遵循相似的轨迹,SOAR正是实现“自我反思”能力的关键一步。
它首次让扩散模型具备了在生成过程中审视并修正自身行为的能力。其工作流程清晰高效:首先,对真实样本执行一步无梯度的前向推理,模拟模型自身可能产生的轨迹偏离;接着,对此偏离状态重新加噪,构造出辅助训练点;最后,以原始样本为锚点,计算出解析式的纠正目标。
整个过程不依赖任何外部奖励模型、偏好标注或负样本。所有纠正信号均从数据本身解析获得。
这带来了三个核心优势:
数据利用率最大化:能从同一份数据中,同步提取“标准答案”与“纠偏信号”,避免了奖励模型带来的信息损失。
提供稠密监督信号:在去噪的中间步骤即可获得纠正指导,而非等待整图生成完毕后才获得迟到的终端奖励。
支持在线学习:模拟的偏离状态源于当前模型自身的推理,因此训练分布会随模型能力更新而自适应变化,始终贴近模型当前的能力边界。
这不仅是训练技巧的改进,更标志着生成模型从“被动执行指令”向“主动审视与纠正”的范式跃迁。
△ 图2:SOAR训练总览——从在轨状态出发模拟偏离,构造多尺度离轨辅助点,计算解析纠正目标。
实证效果:无奖励模型,性能超越RL方法
效果如何?数据为证。基于SD3.5-Medium模型,仅使用28.6万图文样本训练,且全程未使用任何奖励标注。结果显示,SOAR在所有报告指标上均优于传统SFT:GenEval从0.70提升至0.78,OCR从0.64提升至0.67。在DrawBench评测集上,PickScore、HPSv2.1、Aesthetic、ImageReward等指标也实现全面增长。
△ 表1:SOAR与SFT在SD3.5-Medium上的指标对比。SOAR在所有维度上均获得提升,且无需奖励模型。
更具说服力的证据来自专项测试。在高美学和高CLIPScore的子集上,SOAR不仅在目标指标上呈现稳定的单调提升,其最终数值甚至超越了直接优化对应奖励的Flow-GRPO方法(Aesthetic 5.94 vs 5.87;ClipScore 0.300 vs 0.296)。换言之,未使用奖励模型的SOAR,其效果反而超过了基于奖励模型的RL训练方法——这正是更高数据利用率带来的直接收益。
△ 图3:SOAR在目标指标上呈现稳定提升,最终超过SFT和Flow-GRPO。无奖励模型,却优于RL方法。
SOAR + RL:构建更稳定的后训练组合
需要明确,SOAR并非旨在取代RL,而是为RL提供一个更稳定、可靠的优化起点。
当前RL后训练的一个核心挑战在于:基础模型自身的生成轨迹可能不够稳定。此时直接使用稀疏的奖励信号驱动探索,模型容易在不稳定区域做出过激调整,导致单一指标提升的同时,语义、结构等其他维度发生崩塌。
SOAR可以先行将模型的轨迹稳定性提升至更高基线——确保语义连贯、结构合理、文字清晰。在此基础上,再接入RL进行偏好探索与风格微调,模型就能在一个更安全、可控的区间内进行优化。
可以这样比喻:先让模型学会稳健行走,再教它按需变换步伐,而非在其步履蹒跚时,就被奖励信号拽着盲目狂奔。
可视化
△ 图4:美学奖励优化——SOAR在结构稳定性、色彩氛围和细节质量上持续提升。
△ 图5:CLIPScore奖励优化——SOAR在文字渲染准确性和构图保真度上表现出更强的语义遵循能力。
△ 图6:WebUI /设计生成——SOAR展示了准确的布局排版、文字层级和视觉结构一致性。
结语
SOAR为扩散模型后训练提供了一条全新路径:摒弃对奖励模型的依赖,直接从数据中挖掘轨迹级纠正信号,使模型在生成过程中具备自我反思与实时纠偏能力。
当数据质量达到一定高度后,决定模型性能上限的关键,往往在于训练方法能从每一份数据中提取出多少有效信号。
SFT仅利用了数据中的“标准答案”,RL将数据压缩为稀疏的终端奖励,而SOAR则致力于在轨迹层面,榨取数据每一分的纠偏价值。这种从“被动模仿”到“主动自纠正”的能力跃迁,有望成为图像、视频、3D乃至更广义的世界生成模型,迈向下一代智能化的关键基础设施。
目前,HY-SOAR的相关论文与代码均已公开,为后续的深入研究与应用探索铺平了道路。






