逆天改命!Flow-GRPO 让图像生成模型秒变 “大神”
图像生成模型的“成长烦恼”
当前基于流匹配(Flow matching)的图像生成模型,其理论框架已相当成熟,生成图像的质量也令人印象深刻。然而,当面对复杂场景时——例如需要精确安排多个物体、协调各类属性与关系,或在图像中准确渲染文本——这些模型的表现往往不尽如人意,显得有些力不从心。

论文地址:https://www.arxiv.org/pdf/2505.05470
项目地址:https://github.com/yifan123/flow_grpo
与此同时,在线强化学习(online RL)在提升大语言模型推理能力方面已展现出显著成效。但一个有趣的现象是,此前的研究焦点多集中于将RL应用于早期的扩散生成模型,或采用直接偏好优化这类离线RL技术,却鲜少有人探索在线RL能否为流匹配生成模型带来突破。这好比手握一把功能强大的钥匙,却未曾尝试去开启另一扇充满潜力的大门。如今,Flow-GRPO的出现,正是为了叩开这扇门。
将RL应用于流模型训练,挑战不容小觑。首要难题在于,流模型的生成过程遵循确定性的常微分方程(ODE),宛如一列沿固定轨道行进的列车,推理时无法进行随机采样。而强化学习的核心恰恰在于通过随机探索不同的“行动”,并根据反馈进行学习。一个要求规整有序,一个依赖随机探索,二者如何协同工作?
其次,在线RL训练依赖于高效的数据采样,但流模型生成每个样本都需要经过多次迭代,过程缓慢,采样效率低下。随着模型变得更大、更复杂,这个问题会愈发突出,形成性能提升的瓶颈。因此,若想让RL在图像乃至视频生成任务中发挥作用,提升采样效率便成为必须攻克的关键。

Flow-GRPO的破局之道
为应对上述挑战,Flow-GRPO应运而生。其核心在于两套相辅相成的策略,共同构成了一个高效且巧妙的训练框架。
第一项策略是“ODE到SDE的转换”。可以这样理解:它将原本只能在确定性轨道上运行的“列车”,改造为能够在更广阔空间内灵活探索的“越野车”。具体而言,Flow-GRPO将生成过程的确定性ODE转化为随机微分方程(SDE),同时确保每个时间步的边际分布与原模型一致。这一转换巧妙地引入了可控的随机性,使得模型在训练阶段能够进行RL所必需的探索。想象一下,生成路径从一条笔直大道,变成了一个拥有多种可能分支的网络,模型从而能探索到更优的图像生成方式。
第二项策略是“降噪步骤缩减”。在训练阶段,Flow-GRPO大幅减少了降噪迭代步数,以此快速收集训练所需数据,极大提升了采样效率。而在最终推理生成时,系统则会恢复使用完整的降噪步骤,以确保输出图像的最高质量。这类似于运动员的训练模式:日常训练采用高强度、短时间的间歇跑以提升效率;正式比赛时则执行完整的策略,以发挥最佳水平。

Flow-GRPO的实战表现
那么,Flow-GRPO的实际效果究竟如何?研究团队在多项文本到图像(T2I)任务上进行了全面测试,结果颇具说服力。
在组合图像生成任务中,使用GenEval基准进行评估。这类任务要求模型像搭积木一样,精确安排物体数量、属性及空间关系。经Flow-GRPO训练后,Stable Diffusion 3.5 Medium(SD3.5-M)模型的准确率从63%大幅提升至95%,甚至超越了GPT-4o模型的表现。以往模型可能生成数量错误、颜色混乱的图像,而经过优化后,其输出变得高度精准可靠。
在视觉文本渲染任务中,SD3.5-M模型的准确率也从59%跃升至92%。此前模型渲染的文本可能出现扭曲、缺失,而现在则能清晰、准确地将其融入图像,仿佛为画面配上了完美的文字标签。
在与人类偏好对齐的任务中,Flow-GRPO同样表现卓越。以PickScore作为奖励模型进行评估,它能使模型生成的图像更贴合人类审美。更重要的是,这种性能提升并未以牺牲图像质量或多样性为代价,有效避免了所谓的“奖励作弊”问题——即模型为追求高分而产出模糊、同质化的内容。Flow-GRPO在提升奖励分数的同时,守住了生成质量的下限。
研究团队还进行了一系列深入分析。例如,在应对奖励作弊问题时,尝试组合多种奖励模型最初会导致图像局部模糊、多样性下降。随后引入KL约束进行调控,在调整至合适的系数后,成功实现了任务特定奖励的优化与模型整体性能的平衡。
对降噪步骤缩减策略的分析显示,将训练时的数据收集步长从40步减少到10步,使得训练速度提升了4倍以上,而最终的奖励分数并未受到影响。这相当于找到了一条通往目的地的捷径,大幅节省了时间成本。
此外,SDE中噪声水平的设置也至关重要。合适的噪声水平(研究发现约在0.7时效果最佳)能增强图像的多样性和模型的探索能力,对RL训练尤为有益。但过高的噪声则会损害图像质量,如同在一幅精细画作上泼洒墨点。关键在于找到那个既能促进探索又不破坏质量的平衡点。
Flow-GRPO还展现了出色的泛化能力。在涉及未见过的场景测试中,它能够准确捕捉物体的数量、颜色和空间关系。即使面对训练时未接触过的物体类别,或是将生成物体数量从训练集的2-4个推广到测试时的5-6个,它都能从容应对,表现出强大的举一反三能力。
未来展望与挑战
尽管Flow-GRPO在文本到图像任务中已取得亮眼成绩,但研究视野并未止步于此。下一个前沿阵地,无疑是视频生成领域。当然,这也意味着一系列新的挑战。
首先是奖励设计。视频生成的评估维度远比图像复杂,需要设计出能综合衡量真实性、流畅性、时序连贯性等多重目标的奖励模型,其复杂程度不可同日而语。
其次是多重奖励的平衡。视频生成往往需要同时优化多个目标,这些目标之间有时存在张力,如何让它们协同一致而非相互冲突,是一个需要精巧设计的难题。
最后是可扩展性。视频生成对计算资源的需求呈数量级增长,如同一个“资源吞噬者”。要将Flow-GRPO成功应用于视频生成,必须开发出更高效的数据收集与训练范式,以应对巨大的算力需求。
尽管前路充满挑战,但Flow-GRPO所展示的潜力为其未来发展奠定了坚实基础。可以预见,随着研究的不断深入,它不仅将在图像生成领域持续进化,更有望在视频生成乃至更广阔的跨模态内容生成场景中,开辟新的可能性。未来的视觉内容创作,或许将因此迎来新一轮的变革。