AI图像评分学会思考:阿里与南开联合突破
这项由阿里巴巴Z-Image团队与南开大学VCIP计算机科学系联合开展的研究,以技术报告形式发布于2026年6月,论文编号为arXiv:2606.09076,感兴趣的读者可通过该编号查阅完整内容。
现在,给AI生成的图片打分,这件事比很多人想象的要复杂得多。一位经验丰富的艺术评委在评价一幅画作时,不会只给出一个数字就走人。她会思考:构图是否平衡?色彩是否和谐?主题是否与标题契合?她的判断来自深度的审视与推理,而不是随手一扫就蹦出一个"7分"。
然而,大多数AI图像评分系统做的恰恰是后一种——它们把图片过一遍,然后快速吐出一个小数,没有推理,没有不确定性分析,也没有细腻的分层判断。针对这个痛点,研究团队提出了一套名为Z-Reward的新框架,核心思路是:让AI评图时也能"想清楚再打分"。
一、为什么给图片打分是一件难事
人类对图片的喜好是出了名的主观。同一张AI生成的风景图,有人觉得颜色太艳,有人觉得刚好;同一张人物图,有人说背景虚化很专业,有人说人脸细节不对。正因如此,当研究人员请多位标注员对同一张图独立打分时,得到的往往不是整齐划一的"4分",而是一组分布——比如有人给3.5,有人给4,有人给4.5。这组分布本身就是宝贵的信息:它告诉我们这张图处于"好与不好之间的模糊地带",而非某个确定的绝对位置。
现有的大多数AI评分系统忽视了这种分布,强行把所有的不确定性压缩成一个数字。这种做法就好比用一把只有"好/不好"两档的尺子去量温度——你能知道冷热,但无法区分28度和32度的细微差别。当两张图的质量略有差异,但都被强行归为"4分"时,系统就彻底失去了分辨它们的能力。
与此同时,一些更先进的系统尝试让AI在打分前先"写下理由"——就像让评委先写评语再亮分。这种方式确实能提升判断质量,因为推理过程迫使模型认真审视图像的各个维度。但代价是推理本身很耗时,而且推理过程产生的文字不容易直接转化为可以用于优化图像生成模型的数学信号。换句话说,你得到了一个有深度的评价,却很难把这个评价"喂"回去改进图像生成器。
正是这个两难困境推动了Z-Reward的诞生:如何既保留推理带来的高质量判断,又获得一个快速、高效、可直接用于优化的分数?
二、Z-Reward的核心设计:老师思考,学生执行
Z-Reward的解决方案可以用一个非常直观的比喻来理解:师徒制。
老师是一个拥有强大推理能力的大模型(研究团队使用的是270亿参数的Qwen3.5-27B)。这位"老师评委"在评价每张图时会先认真思考,写出完整的分析推理,然后给出一个分数分布——不是单一的数字,而是对各个可能分数的概率判断。比如,老师可能认为这张图有60%的概率值4分,30%的概率值3.5分,10%的概率值4.5分。这个分布准确地反映了评价的不确定性和细腻程度。
学生是一个更轻量的小模型(90亿参数的Qwen3.5-9B)。学生的任务不是去学会如何像老师那样一步步推理,而是直接学会老师推理之后得出的那个分布结论。学生看了图之后,不需要写任何分析,直接就能输出一个与老师推理结论高度一致的分数分布。这意味着学生在推理时快很多,可以高效地大规模部署,同时还能把分数期望值直接当作数学信号,反向传播用来优化图像生成模型。
这个设计的精妙之处在于一个核心洞察:奖励模型不需要学会老师怎么推理,只需要学会老师推理后怎么判断。就像一个优秀的学徒,不必事事从头推导原理,但一定要准确内化师傅多年经验积累的判断直觉。
三、打分的维度:从四个角度看一张图
在搭建整个系统之前,研究团队首先需要解决一个根本问题:什么叫"一张好图"?他们定义了四个维度来量化图像质量。
第一个维度是文本与图像的一致性,也就是AI生成的图和用户的描述是否匹配。如果用户说"两把小提琴在用琴弦击剑",生成的图是否真的画出了两把琴而不是两把剑?第二个维度是真实感,图中的人脸、皮肤、材质看起来是否真实自然,还是充满了AI特有的奇怪质感?第三个维度是美学,构图、光线、色彩是否令人赏心悦目?第四个维度是物理合理性,图中物体的物理关系是否符合现实——重力是否正确、物体大小比例是否合理?
每个维度都有一个五档评分体系,但实际打分时采用更精细的九档半分制,也就是1.0到5.0之间每隔0.5设一个分数点。这种设计是为了捕捉那些恰好落在两个档次之间的图像——有时候一张图比"3分"好一点点,但又没达到"4分",这时候3.5就能准确表达这种细腻差别。
为了帮助标注员统一理解标准,研究团队为每个维度的每个分档准备了15到20张已标注的参考样例,标注员可以把待评图和这些参考图对比,找到最接近的那个档次,然后根据细微差异进行微调。
四、老师是怎么被"训练"的:群体式直接分数优化
训练老师模型的过程,涉及一种研究团队自主设计的方法,叫做"群体式直接分数优化",英文缩写GDSO。这个名字听起来复杂,但核心逻辑其实可以用一个日常场景来理解。
假设你在培训一批新厨师,让他们学会判断菜肴的咸淡。你的方法不是只告诉他们"这道菜偏淡",而是同时做三件事:让每个厨师猜一个具体盐分数值,对照标准答案给予奖惩;让他们比较两道菜之间的咸淡差距是否准确;同时直接告诉他们正确答案应该是几,让他们记住。三管齐下,厨师学得又快又准。
GDSO也是如此。对于每张输入图片,老师模型会生成多组推理过程和分数预测(研究中每组叫做"一个群")。然后系统同时施加三种力量:其一,奖励那些预测分数接近人工标注分数的输出(绝对位置奖励);其二,奖励那些能够准确反映同一提示词下两张图质量差距的输出(相对差距奖励);其三,直接用人工标注的分数分布来监督模型输出的分布(直接分布监督)。
为什么要同时做这三件事,而不是只用一种?研究团队发现,如果只靠"做对了就奖励、做错了就惩罚"这种方式,模型需要大量尝试才能逐渐摸清楚打分的尺度,就像一个孩子只通过"猜对了给糖"来学加法,学习效率非常低。而直接告诉模型"这张图在标注分布里应该有多少概率落在每个分数上",相当于在给模型开小灶辅导,收敛速度快得多。
特别值得一提的是,GDSO放弃了业界常用的Bradley-Terry偏好建模方式。那种方式只要求"胜者的分数高于败者",但不管高多少,结果是模型可能把两张质量相近的图的分数差距越拉越大,完全脱离实际标注数据的比例。GDSO的相对差距奖励则要求模型预测的差距与人工标注的差距相符,从而保证了分数体系内部的一致性。
五、学生是怎么学到老师的判断的:推理内化分数蒸馏
训练好老师之后,研究团队用一种叫做"推理内化分数蒸馏"(RISD)的方法来训练学生。
蒸馏这个词在机器学习里有特定含义,但用日常语言说,它的意思很接近"把大厨的经验提炼成一份简洁食谱"。老师模型经过长时间推理后得出的分数分布,是经验的精华;学生模型要做的是直接消化这个精华,而不是把老师写的每一步推导都背下来。
具体来说,研究团队拿出一批训练图片,先让老师模型对每张图做完整的推理,得到一个推理条件下的分数分布。然后学生模型对同样的图也输出一个分数分布,但学生既不看老师的推理过程,也不自己写推理——直接给分布。学生的训练目标就是让自己的分布尽量接近老师的推理条件分布,用的是一种叫KL散度的数学工具来衡量两个分布之间的差距,差距越小越好。
这里有一个微妙但关键的地方:学生模型复制的不是老师的"思考方式",而是老师"思考之后的结论"。老师用了推理,所以它的结论比不推理时更准确、更有深度;学生把这个经过推理提升的结论内化进了自己的直接打分机制里,于是学生在不推理的情况下,也能给出接近老师推理后质量的判断。
六、与其他方法相比,成绩如何
研究团队在内部标注的测试集上进行了系统性评测,对比了多种方法,结果相当清晰。
在27亿参数的模型规模上,GDSO训练的老师模型在人类偏好准确率这一核心指标上达到了89.6%,而仅仅做标准微调(SFT)的同规模模型只有81.3%,采用对比式推理方法(RewardDance)的达到84.2%,采用群体相对策略优化(GRPO)的达到86.0%。GDSO全面超越了这些对手。
更令人注目的是90亿参数的学生模型的表现。学生模型采用RISD蒸馏之后,人类偏好准确率达到了88.6%,这个数字非常接近那个比它大三倍的27B老师模型。相比之下,对9B模型直接做标准微调只有74.6%,采用在线策略蒸馏(OPD)方法达到83.1%,而RISD以88.6%遥遥领先。这说明推理内化蒸馏这条路走得通:一个小模型可以通过正确的方式,把大模型推理能力的精华吸收进去,获得远超自身"原始能力"的评分水准。
在分数校准(PLCC和SRCC两个指标)方面,GDSO和RISD同样都是各自规模里的最优选手。其中一个特别有趣的观察是:RewardDance方法在9B模型上确实能提升配对偏好识别能力(从74.6%提到78.2%),但它的PLCC和SRCC反而低于普通SFT。研究团队解释说,用事后拼接的伪推理链可以帮助小模型识别粗粒度的好坏差异,但并不能让它学会校准绝对分数。这个对比很好地揭示了"会分好坏"和"会打准分"是两种不同能力,Z-Reward同时追求两者。
七、一个有趣的技术细节:从分布期望提取奖励,而非解析文字
研究团队还专门做了一个消融实验,比较两种提取奖励的方式:一是把模型输出的文字中的分数数字截取出来直接用;二是从模型的分数分布期望值中提取。
结果显示,用分布期望的方式明显优于解析文字。原因在于,当模型输出"4"这个文字时,它可能本来对应的期望值是3.8或者4.2,这两种情况下产生的奖励和优化方向应该是不同的,但如果只看文字,它们都被视为"4",差异被抹去了。分布期望则保留了这种细粒度信息,给优化提供了更密集、更有区分度的信号,让模型学得更快更准。
八、Z-Reward如何用来优化图像生成
最后,研究团队还验证了Z-Reward作为图像生成优化信号的实用价值。方法是把学生模型预测的分数期望值当作奖励信号,通过梯度反向传播直接优化图像生成器(一个基于扩散变换器的文生图模型)。这种方式叫做奖励反向传播,是近年来文生图优化领域的重要技术方向。
研究团队对四个维度的奖励信号进行了综合聚合,在1万步强化学习训练过程中,四个维度的奖励分数均呈现稳定上升的趋势。其中真实感和美学提升较快,而文本一致性和物理合理性由于依赖更深层的语义和结构理解,提升更为缓慢但持续。
最关键的验证来自人工评测。研究团队准备了400个涵盖多种复杂场景的提示词,请专业标注员对经过Z-Reward优化的图像和基线图像进行盲测比较,使用"好/相同/差"三档评价,计算净人类偏好改善率。最终结果显示,Z-Reward优化后的模型相对于基线达到了41.3%的净改善,也就是说,在盲测中,平均有超过四成的比较结果认为优化后的图更好。这个数字有力地说明奖励模型的提升确实转化成了用户感知到的图像质量提升,而不是单纯的数字游戏。
定性观察也支持这一结论。以一张描述"年轻女性头戴复杂红棕色辫子发冠,手上停有蓝闪蝶,背景模糊"的图为例,基线模型生成的图中蝴蝶颜色和停落姿态不够准确,优化后的版本则在这些细节上明显更贴近描述。另一张要求图中间出现"写着'Home Sweet Home'的相框,以及一个写着'Rest Now'字样的靠垫"的图,基线版本文字内容不准确且排版混乱,优化后的版本则清晰呈现了两段文字,对齐效果显著提升。
九、这套框架还有哪些局限和未来可能
研究团队在论文中也坦诚指出了当前框架的一个主要局限:GDSO的训练目标同时包含策略梯度奖励和直接监督损失,两者混合使用在整体上确实带来了更好的分数校准效果,但在极少数情况下,模型的最终分数可能更多地依赖直接监督信号,而不是由推理过程自然推导得出。也就是说,推理和打分之间的耦合有时候不够紧密。研究团队认为,未来可以通过加入推理-分数一致性检验或对比监督来强化这种联系。
从更宏观的角度来看,Z-Reward的框架并不局限于图像评价。只要输出是可以量化的分数,这套老师推理、学生内化的机制就可以迁移。视频质量评价、图像说明文字质量评估、语言模型回答质量评分,都可能是未来的应用方向。更远的未来,一个统一的多模态奖励模型或许可以在单一系统内同时处理图像、视频和文字的质量判断,结合点对点的分数分布、配对偏好和校准分数差距,形成一套完整的多维度评价体系。
归根结底,Z-Reward在技术上做的是一件非常"人性化"的事情:承认评价本身存在不确定性,把不确定性用概率分布的方式保存下来,然后通过推理让这个分布更有根据、更有深度。在此基础上,再把这种有深度的判断能力用一种高效的方式传递给更轻量的模型,让它既有判断力,又不笨重。这对于AI图像生成的整个链条——从生成到评价再到优化——都具有实际意义,也代表了一种更成熟、更细腻的AI评价思路。对于那些希望深入了解技术细节的读者,可以通过arXiv编号2606.09076找到这篇完整的技术报告,其中包含完整的数学推导和实验设置。
Q&A
Q1:Z-Reward和传统AI图像打分系统有什么本质区别?
A:传统AI图像打分系统通常只输出一个数字,比如"7分"或"4分",把所有不确定性都压缩掉了。Z-Reward则输出一个分数分布,相当于告诉你"这张图有60%的可能值4分,30%的可能值3.5分"。这种方式能保留细微差异,两张质量略有不同但都在4分附近的图,在传统系统里无法区分,在Z-Reward里却可以通过分布的差异识别出来。
Q2:GDSO和GRPO训练方法有什么区别?
A:GRPO是一种常见的强化学习方法,它只靠"猜对了给奖励、猜错了扣分"来训练模型,模型要通过大量尝试才能摸清打分尺度,学习效率较低。GDSO在此基础上增加了两种直接监督信号:一是直接告诉模型人工标注的正确分数分布;二是要求模型预测的两图分数差距与人工标注的差距相符。这两种额外信号大幅加速了模型的学习,最终准确率从GRPO的86.0%提升到了89.6%。
Q3:RISD蒸馏为什么比直接让小模型自己学推理效果更好?
A:直接让小模型(9B)自己探索推理路径(OPD方法)的问题在于,这个小模型的推理能力本身就比较弱,它能探索到的推理路径质量有限,所以学习信号也受限,最终准确率只达到83.1%。RISD换了一种思路:不让小模型学推理过程,而是让它直接对标大模型(27B)推理后得出的分数分布。小模型不需要会推理,只需要准确复制大模型推理的"结论",结果准确率达到了88.6%,接近27B大模型的89.6%,还省去了推理时间。
