港科大AI绘图助手评测：自适应进化让绘图更精准

2026-05-29阅读 0热度 0

先说几个核心判断：当AI图像生成从“单步指令”进化到“多环节协同创作”，整个工作流的底层逻辑已经发生根本变化。香港科技大学团队提出的GenEvolve，正是对这一趋势的精准切入——它不再是简单的“文生图”工具，而是一个具备主动检索、参考迭代与自学习能力的智能创作代理。

研究背景：从“一句提示生成”到多维复杂指令的必然演进

设想你要绘制这样一幅作品：左侧是弗里登斯莱希·洪德特瓦瑟设计的维也纳彩色凹凸公寓楼，右侧是皮特·布洛姆设计的鹿特丹倾斜黄色方块屋。左楼入口上方挂着一块木牌，上书“ORGANIC”，右楼上方则悬着金属牌，刻有“GEOMETRIC”。当你把这段描述输入目前最先进的AI绘图软件时，结果往往是两栋建筑挤作一团，标牌贴错位置，连“ORGANIC”这个单词都歪扭模糊、难以辨识。

这并非AI能力不足，而是此类指令本身就已超越了“输入一段话、生成一张图”这一简单流程所能处理的极限。当请求涉及真实世界的具象知识、多个对象的精确空间关系、特定文字的渲染精度，以及对参考图像的准确调用，单凭一段文本描述根本无法让AI准确理解那栋楼的具体形态、两栋楼之间应有的间距、以及每块标牌各自归属哪座建筑。

这正是香港科技大学研究团队要攻克的核心难题。他们开发了一个名为GenEvolve的系统，核心理念是：将图像生成从单一操作转变为类似资深画师的“智能工作流”——先查阅资料、寻找参考图、调用专业绘画技法，再撰写一份完整的“创作委托书”交给绘图引擎执行。更关键的是，这个智能代理还能从自身的失败案例中持续学习，随着使用次数增加，产出质量稳步提升。

一、为什么AI绘图还需要“查资料”和“找参考”？

日常使用AI生图时，流程极为简洁：输入提示词，等待数秒，图像便生成。这在处理泛化风景或卡通形象时毫无问题。但当需求变得具体且带有约束条件时，难度立刻显现。

以洪德特瓦瑟的公寓楼为例，其外墙色彩艳丽、轮廓凹凸起伏、没有一条直线，是极具辨识度的建筑风格。如果AI从未见过这栋楼的照片，仅凭文字描述几乎不可能准确还原。同理，鹿特丹的立方体黄房子也具有极其特定的倾斜角度与几何形态。这类视觉信息必须依赖于真实世界的图片参考，而非凭空臆想。

除了视觉参考，某些请求还涉及事实性知识。例如“画出2023年斯诺克世界锦标赛冠军的国旗纹样铺满球台”，AI必须先明确当年的冠军是谁、来自哪个国家、国旗的配色与图案，才能进行绘制。这类知识只能通过检索获取，不能靠猜测。

为此，研究团队设计了一套“工具箱”，智能代理可按需调用三类工具。第一类是文字搜索，用于检索真实世界的事实信息，如比赛结果、历史事件、人物背景等。第二类是图片搜索，用于寻找视觉参考，让AI掌握那栋楼、那座奖杯、那件服装的真实样貌。第三类是内部技能调用，这是一套预先编写的“专业绘画指导手册”，涵盖文字渲染、空间布局、数量计数、人体结构、材质物理特性、美学风格等八大类别，智能代理可根据具体需求随时调用，如同厨师依据菜品特点翻阅不同的烹饪技法手册。

这三类工具的组合，使智能代理不再是“仅凭脑中记忆作画的画师”，而进化为一个“有备而来的创作者”——能够主动查资料、找参考、运用专业技能。

二、智能代理如何工作？从接到指令到交付成果的完整流程

用烹饪来类比这个系统的工作方式会非常直观。智能代理收到一份“出餐指令”（用户的绘图需求）后，并不会立即动手炒菜，而是先进行一系列准备工作：浏览菜谱、寻找食材、准备专业厨具，然后撰写一份详细的“制作方案”交给实际执行的厨房设备（即下游绘图模型）。

具体而言，每次收到指令后，智能代理会进入一个多轮决策过程。每一轮，它都要评估当前已掌握的信息、还欠缺什么、下一步应使用哪个工具。它可以先搜索文字确认一个事实，再搜索图片获取视觉参考，接着调用“空间布局”技能获取多物体位置排列的专业指导，最后调用“文字渲染”技能学习如何在图像中呈现清晰可读的文字。这些工具的调用顺序完全根据指令的实际需求灵活决定。

所有准备工作完成后，智能代理会输出一份“创作指令书”，内含两个关键要素：一段精心撰写的文字指令，以及一组精选的参考图片。文字指令中会使用“第一张参考图”、“第二张参考图”等表述来明确引用图片，而非粘贴原始图片链接。这样，下游绘图模型就能清晰知道应参照哪张图的哪些特征来生成最终图像。

这份“创作指令书”是整个系统的核心产出。研究团队将其称为“提示-参考程序”，其质量直接决定最终图像的好坏。一份优质的指令书能够将用户原始需求、检索到的事实、选取的参考图片特征以及专业技能指导融合成一份清晰、可执行、信息丰富的创作方案；而劣质的指令书则会遗漏关键信息或包含错误事实，导致绘图模型“按图索骥”却产出截然不同的结果。

三、数据从何而来？自主构建“训练教材”

训练这样一个智能代理，所需的并非普通的“提示词-图片”配对数据，而是完整的“操作过程记录”——每一步使用了什么工具、如何思考、最终写出了什么指令书、生成了什么图像。这类数据在现实世界中几乎不存在，研究团队只能从零开始构建，这个数据集被命名为GenEvolve-Data。

构建过程从“出题”开始。研究团队设计了一套结构化的出题规则，每道题都有明确规定：属于哪类场景、缺失什么外部知识、需要什么视觉参考、主要考验哪种绘画能力、难度级别如何。按照这套规则生成的题目分为两大类：一类是知识锚定型，专门考验需要查资料才能画准的情况，如具体人物、历史事件、特定地点；另一类是质量锚定型，专门考验画图质量上的挑战，如文字是否清晰、空间布局是否正确、物体数量是否准确、材质质感是否真实。最终构建了近两万道有效题目，涵盖建筑、街景、公众人物、产品、交通工具、科学图示、文字排版等十六大类别。

题目准备完毕后，研究团队邀请了两个能力强大的AI教师（字节跳动的Seed2.0和谷歌的Gemini 3 Pro）进行“做题示范”，为每道题生成一套完整的操作轨迹记录：从搜索什么关键词、寻找什么图片、运用什么技能，到最后写出什么指令书，全程记录在案。这些示范轨迹经过严格筛选，排除了工具调用不完整、参考图选错、指令书写不达标等问题案例，最终保留了一万三千多条高质量轨迹。

筛选下来的高质量指令书还被拿去实际生成图像，使用当时画质最优的Nano Banana Pro模型（基于谷歌Gemini 3 Pro图像生成能力构建）制作成真实图片，再经过一轮质量审核，最终留下三千多张“标准答案图”。这些图片后来成为评分和自我进化阶段的重要参照。

整个数据集最终被切分为三部分：一部分用于让智能代理学会基本操作流程，一部分用于自我进化训练，最后一部分被锁定，专门用作最终考试——这就是GenEvolve-Bench评测集。

四、核心创新：从失败中学习，而且学得明明白白

让一个AI系统从自身的生成结果中学习并非新鲜事，但GenEvolve的学习方式与常规做法有本质区别，这也是整个研究最独特的亮点。

常规做法是：让系统生成一批图片，然后给每张图一个分数，高分操作被鼓励，低分操作被压制。这就像老师给学生作业打一个总分，却从不解释哪里做对了、哪里做错了、为什么错了。学生只知道这次考了80分、上次考了60分，但完全不清楚具体哪一步出了问题。

GenEvolve的做法截然不同。它会让智能代理对同一道题生成多份答案，然后找出得分最高和得分最低的那两份，专门比较这两份的差异，提炼出“为什么好、为什么差”的具体教训，形成结构化的经验总结。这份经验总结包含五个方面：搜索策略上的差异（好答案如何查资料，坏答案在哪步查错了）、技能调用上的差异（好答案激活了哪些专业技能，坏答案漏掉了什么）、参考图选择上的差异（好答案如何挑选图片，坏答案选了哪些无用甚至误导的图）、指令书写作上的差异（好答案如何组织信息，坏答案在哪里写得含糊不清）、以及失败教训（坏答案中出现了哪些典型错误需要未来避免）。

这份经验总结有一个特别的用法：它只在训练时出现，而且只提供给“有特权的老师版本”查看，普通的学生版本看不到。训练时，老师版本和学生版本都去处理同一道题、评估同一批答案，但老师看得到过去的失败经验和总结，学生看不到。通过比较老师和学生在每个具体词语判断上的差异，系统就能知道哪些决策点是老师（有了经验后）会做出不同选择的地方，然后引导学生向老师的判断靠拢。

这种机制的精妙之处在于其精准性。它不是笼统地说“整体要更好”，而是聚焦到具体的决策词语上——比如在智能代理思考“要不要调用空间布局技能”这个问题时，老师有了经验会更确定地选择调用，而学生此时还在犹豫，训练就会在这个具体的决策节点上纠正学生的判断。为了让这种纠正更高效，系统还专门筛选出老师和学生判断分歧最大的那10%的关键词语进行重点学习，避免在已判断正确的地方浪费资源。

研究团队将这个机制称为“视觉经验蒸馏”——把从真实图像反馈中提炼出的操作经验，通过训练的方式“蒸馏”进智能代理的判断能力中。训练完成后，智能代理在实际工作时并不依赖这套经验记忆，它已将这些经验内化为自己的判断本能。

五、三个真实失败案例：错误如何发生，又如何避免

研究团队在论文中详细展示了三组真实的“好答案vs坏答案”对比，非常具体地说明了经验学习在实际中如何发挥作用。这三个案例揭示了不同类型的错误来源，值得仔细审视。

第一个案例涉及斯诺克世界锦标赛。题目要求画出一个赛场，球台毡布颜色必须符合2023年世界冠军所在国的国旗颜色。好的答案在第一步就搜索了“2023年斯诺克世界锦标赛冠军国籍”，得知冠军是来自比利时的卢卡·布雷切尔，随后将球台毡布画成了比利时国旗的黑黄红三色竖条纹。坏的答案仅在搜索词中加了一个词——将“冠军国籍”改为“冠军国旗”，结果搜索引擎被“国旗”这个词干扰，返回了混乱的结果，智能代理误判冠军是中国选手吴一泽，于是将球台毡布画成了红底黄星的中国国旗样式。这个案例说明，哪怕只是在搜索关键词中加了一个不必要的视觉属性词，就能完全扰乱后续的所有判断。提炼出的经验教训是：当需要查询某个实体的属性时，应先查询实体本身，再从结果中推断属性，而不是将属性词直接放入搜索词中。

第二个案例是1970年代风格的交通运输海报，需展示法国气垫列车Aérotrain I80，并在海报上以复古大字显示它创造世界速度纪录时的速度和年份。好的答案和坏的答案都通过搜索正确找到了数据（430.4公里每小时，1974年），但坏的答案没有调用文字渲染技能，而是将所有文字揉成一个长字符串并用竖线分隔：“Aérotrain I80 | 官方世界速度纪录：430.4公里每小时（267英里每小时）| 1974”。结果绘图模型不知道如何排布这串文字，生成的海报上文字叠压混乱，完全无法辨认。好的答案调用了文字渲染技能，将文字拆分成三行，每行分别描述内容、位置和字体风格，最终生成的海报文字清晰、布局工整、复古感十足。这个案例说明，光有正确的内容还不够，“如何将内容传达给绘图工具”本身也是一项需要专业知识支持的技能。

第三个案例就是本文开头提到的双建筑题。好的答案在找到两栋楼的参考图后，专门调用了空间布局技能，获取了关于多物体帧内坐标定位的专业指导，在指令书中明确写出了“画面中景左侧是洪德特瓦瑟公寓，画面中景右侧是立方体黄房子，两者间隔约三米，中间是人行道”这样的精确空间描述。坏的答案调用了文字渲染技能但跳过了空间布局技能，只写了一句“两栋楼并排放置、宽度相等”，结果绘图模型不知道两栋楼应分别占据画面的哪个区域，生成的图像中两栋建筑几乎融合在一起，木牌和金属牌也挂错了位置。这个案例说明，当需要在画面中安置多个物体时，模糊的“并排”指令远远不够，必须使用帧内坐标式的精确语言来锁定每个物体的位置。

六、评测结果：究竟比对手强多少？

研究团队构建了一套完整的评分体系来衡量生成图像的质量，这套评分从四个维度进行评估：图片内容与指令描述的吻合度、视觉细节的准确性（如建筑外形是否准确、人物服装是否符合）、文字渲染的清晰度、以及整体美感。这四项分数加权组合成一个总分，称为KScore。

在研究团队自建的测试集上，他们对比了十多个直接出图的AI模型（包括FLUX、Stable Diffusion系列、Qwen-Image、Z-Image等），以及几个近期发布的智能助手式生图系统（如GenAgent、Gen-Searcher、Mind-Brush）。结果显示，直接出图模型中表现最强的Qwen-Image总分仅为约0.30，中等水平的Nano Banana Pro直接出图也只有约0.53。GenEvolve搭配开源绘图模型（Qwen-Image-Edit）时，总分达到约0.37，超过了同样使用该绘图模型的竞争对手Gen-Searcher（约0.35）。当GenEvolve搭配更强的Nano Banana Pro时，总分进一步提升至约0.57，在所有对比系统中取得了最高分，并且在知识锚定和质量锚定两个子类别上都保持领先。

为了验证这套系统不止在自家测试集上表现优异，研究团队还让GenEvolve参加了与本研究无关的公开外部测试——WISE评测集。这套测试专门考验图片生成中的世界知识理解能力，分为文化、时间、空间、生物、物理、化学六大类别。GenEvolve在总分上拿到了0.82，而此前最好的直接生图模型GPT-4o是0.80，此前最好的智能助手系统Mind-Brush是0.78。特别是在化学（0.83）和生物（0.83）两个类别中，GenEvolve的优势最为明显，而这恰好是最需要事实性知识支撑的领域。这表明该系统学到的能力是真实的、可迁移的，而非针对特定测试集过度优化的产物。

研究团队还进行了一组剖析实验，逐步去掉各个组件，观察每个环节对最终效果的贡献。不训练仅靠初始模型做工具调用，总分是0.33；加上监督学习初始化，提升到0.35；再加上强化学习（但没有经验蒸馏），提升到0.35多；完整版加上经验蒸馏，最终达到0.37。视觉准确性这一分维度的提升尤为明显，说明经验蒸馏对帮助系统学会正确获取和使用参考图确实有独特贡献。

七、训练过程中，“老师”和“学生”之间发生了什么？

研究团队还进行了一个有趣的细节分析，专门查看在训练过程中，拥有经验的老师版本和普通学生版本在哪些具体词语上出现了最大的判断分歧，以此验证经验蒸馏是否真的在起作用。

他们选了一道题作为案例：画出德国伍珀塔尔悬挂单轨列车的风格化插画，要求画面中能看到来自特定视角的特定数量车厢。这道题同时考验真实地标的外观准确性、数量计数技术，以及视角和空间布局。检索到的经验提示是：先用图片参照验证特定视角下可见车厢的数量，然后再调用数量计数技能。

分析结果表明，老师和学生之间的分歧主要体现在两类词语上。第一类是老师会“纠正”的词——在学生倾向于使用某个模糊或错误的词时，老师将概率集中压到另一个更准确的词上。例如，学生想写“shape”（形状），老师改为“layout”（布局），因为这是调用空间布局技能的关键触发词；学生写“correct”（正确的），老师改为“factual”（基于事实的），因为这是强调信息应来自搜索而非主观判断的重要措辞；学生写“first”（首先），老师改为“query”（查询），因为第一步要做的是发起搜索而非开始描述。第二类是老师会“强化”的词——当学生已在往正确方向走但还不够确定时，老师大幅提升同一个词的概率，让学生更果断。例如，“spatial”（空间的，即调用空间布局技能）从0.53提升到0.96，“count”（数量，即调用计数技能）从0.64提升到0.79，“search”（搜索）从0.62提升到0.85。这些数据清楚地说明，经验蒸馏确实在帮助系统在正确的决策节点上做出更果断、更准确的选择，而不是笼统地改变整体风格。

归根结底，GenEvolve做的事情可以用一句话概括：将“生成一张图”从一个简单的单步操作，转变为像经验丰富的老专家一样工作的完整流程——查资料、找参考、用技能、写方案，而且每次完成后都能从成功与失败的对比中学习，让下一次做得更好。

这项研究对普通用户最直接的意义是：未来当你需要生成包含真实地标、特定人物、精确文字、复杂空间关系的图片时，不再需要自己耗费大量时间撰写冗长提示词、反复修改、碰运气。这类工作可以交由一个懂得主动查资料、找参考、调用专业技能的智能代理来完成，而且它会越用越顺手。

当然，这项研究也有其当前的局限性。从测试数据来看，即使是最好的结果（总分0.57），距离完美仍有相当距离，说明这类复杂请求对当前所有系统来说仍是重大挑战。此外，系统目前依赖特定的下游绘图模型，模型更换后效果会有所变化，尽管研究已初步验证了一定程度的可迁移性。另外，经验积累的质量依赖于成对比较中能否找到“足够好”和“足够差”的答案，如果某类题目所有答案都差不多，就很难提炼出有用的经验。

对于普通读者来说，一个有趣的思考问题是：如果AI可以像老专家一样通过失败经验越画越好，那么在什么类型的请求上这种学习会最有效，又在什么类型的请求上几乎没有帮助？有兴趣深入探索这些问题的读者，可以通过arXiv:2605.21605查找完整论文。

Q&A

Q1：GenEvolve和普通的AI生图软件有什么本质区别？

A：普通AI生图软件是“一句话生成一张图”，直接将文字描述转换为图像。GenEvolve则像一个会主动工作的代理，它先去搜索相关事实、寻找视觉参考图、调用专业绘画技能指导，再写出一份详细的创作方案交给绘图工具执行，整个过程包含多个决策步骤，而非一步到位。

Q2：GenEvolve的视觉经验蒸馏是如何让AI越画越好的？

A：GenEvolve对同一道题生成多份答案，找出最好和最差的进行详细对比，提炼出“好在哪里、差在哪里”的具体经验。训练时，这份经验只让“老师版本”看到，通过比较老师和学生在具体词语判断上的分歧，系统学会在关键决策点上做出更准确的选择。训练结束后，代理不需要依赖经验记忆，已将这些经验内化为本能。

Q3：GenEvolve在公开测试集WISE上的表现如何？

A：GenEvolve在WISE评测集上取得了0.82的总分，超过了此前最好的直接生图模型GPT-4o（0.80）和智能助手系统Mind-Brush（0.78）。在最需要事实知识的化学和生物类别上优势最为明显，说明该系统学到的能力可以迁移到完全不同的测试场景，而不仅限于自家测试集上的表现。