AI自我升级提示词优化师评测：突破人类调教天花板？

2026-06-11阅读 0热度 0

新加坡

这项由新加坡国立大学与香港城市大学联合开展的研究，以预印本形式于2026年6月3日发布，论文编号为arXiv:2606.04465，有兴趣深入钻研技术细节的读者可通过该编号检索完整原文。

如果你经常使用ChatGPT或类似的AI助手，大概早就发现了一个现象：同一个问题，问法不同，得到的回复质量可能天壤之别。"帮我写封邮件"和"你是一位资深职场沟通专家，请帮我写一封措辞正式、逻辑清晰的商务邮件"——这两种问法背后，是截然不同的AI表现。这种在AI回答之前就输入的"幕后指令"，在专业领域被称为"系统提示词"（System Prompt），它就像是给AI员工发放的"岗位职责说明书"，决定了这位员工的工作风格、思考方式和回答习惯。

问题在于，长期以来，怎么写出一份好的"岗位说明书"，全靠人类工程师凭经验反复试错。这既耗时耗力，又严重依赖个人经验，充满了不确定性。于是研究者们开始思考：能不能让AI自己来优化这份说明书？这类研究被称为"提示词自动优化"，它催生了一批专门的"提示词优化师AI"——一种专门负责修改和改进其他AI说明书的特殊AI。

但新的问题随之而来：这些"提示词优化师AI"本身的说明书，依然是人类手工写的，而且从不更新。这就好比雇了一位顾问来帮员工们优化工作手册，却发现这位顾问自己的工作手册从来没人改过，里面写的还是十年前的老办法。这项研究的关键突破，正是要打破这个怪圈——研究团队提出了一套名为"自进化提示词优化"（SePO，Self-Evolving Prompt Optimization）的框架，让"提示词优化师AI"也能优化自己的说明书，从而实现真正意义上的自我成长。

一、为什么"提示词优化师"自己也需要被优化？

用一个培训机构的比喻来理解这个问题：培训机构会派出培训师，去帮各个部门的员工提升技能，比如改进销售话术、优化客服流程、完善技术文档。这就是"提示词优化师"在做的事情——它读取某个AI的工作表现数据，分析哪里做得好、哪里做得差，然后提出修改建议，更新那个AI的说明书。

但这位培训师本身的能力是有上限的。如果他自己接受的培训已经过时，他给出的建议也会相应受限。更麻烦的是，在现有的大多数系统里，这位培训师的"自身培训手册"是由人类工程师在项目开始时一次性写好的，之后再也不会修改。这意味着，无论培训师帮助了多少个部门、积累了多少经验，他自己的核心能力永远停留在第一天的水平。

这正是现有方法的根本局限。像TextGrad（通过分析AI输出的文字来反向推导改进方案的工具）和MetaSPO（一种尝试跨任务学习通用提示词的方法）这样的系统，都存在同样的问题：负责优化的那个AI本身的核心指令，始终是人类手写的固定内容，不在优化范围之内。

SePO的解决方案是把这个培训师也纳入被培训的范围，让他用同样的方法来改进自己的工作手册。这在技术上被称为"自引用设计"（Self-Referential Design）——一个过程同时作用于两个层面：既优化普通AI的说明书，也优化优化师自己的说明书。

与此前一个名为PromptBreeder的相关研究对比，可以更清楚地看到SePO的不同之处。PromptBreeder确实引入了一定程度的自我参照机制——它有一个"变异提示词"专门负责修改任务提示词，还有一个"超级变异提示词"负责修改那个变异提示词。但超级变异提示词本身是人类固定写好的，永远不会被修改，就像俄罗斯套娃最外层那个始终不变的大娃娃。SePO则彻底关闭了这个开口，让最外层的那个大娃娃也能被系统自动更新。

二、SePO如何运作：进化、存档与两阶段训练

理解SePO的运作逻辑，可以借助自然界的进化演变来类比。在生物进化中，适者生存——优秀的基因特征被保留并传给后代，劣质特征被淘汰。SePO采用的正是这种"进化搜索"思路，只不过被进化的对象不是基因，而是AI的系统提示词文本。

整个进化过程围绕一个"候选提示词档案库"展开，这个档案库就像是一个基因池，里面存放着各个历史版本的提示词，每个版本都附有对应的表现评分。当需要生成新的提示词时，系统从档案库中选出一个"父代提示词"作为起点，然后让优化师AI根据AI的实际表现（哪些问题答对了，哪些答错了）提出修改建议，生成一个"子代提示词"。如果子代提示词经测试比父代表现更好，它就被收入档案库，成为下一轮进化的基础；如果更差，则直接丢弃。

这里有一个精妙的细节：父代提示词的选取不是简单地总挑最好的那个，而是使用了一套带有温度调节和"使用惩罚"的机制。表现越好的提示词被选中的概率越高，但如果某个提示词已经被当作父代用过很多次，它的被选概率会降低，从而把机会让给那些还没被充分探索的版本。这就像一个研究团队不会让最厉害的那位成员包揽所有工作，而是给每个人都留出贡献的机会，避免团队思维陷入单一轨道。

档案库的另一个关键作用是充当"跳板"。那些不是最优但也还不错的中间版本提示词，不会被随意丢弃，而是保留在档案库中——它们可能在未来的某个进化节点成为突破性改进的起点。这种机制被研究团队称为"以早期提示词为后续改进的垫脚石"。

在这套进化机制之上，SePO设计了一个两阶段训练流程，非常类似于人类教育体系中"通识教育"加"专业教育"的结构。第一阶段叫"预训练"（Pre-training），对应的是通识教育。在这个阶段，优化师AI不去针对任何特定任务，而是在一个包含多种不同类型任务的大池子里接受训练——有数学题、有编程题、有科学题、有推理题。在这个过程中，优化师AI的自身说明书也在被不断更新和改进，逐渐积累出一种跨任务的通用优化能力。可以把这个阶段理解为培养一位见多识广、经验丰富的全科培训师。

第二阶段叫"微调"（Fine-tuning），对应的是专业教育。经过预训练之后，优化师AI已经具备了相当强的通用优化能力，这时候再把它专门应用到某个具体任务上——比如专门帮助数学解题AI优化说明书。在这个阶段，优化师AI自己的说明书不再更新，已经固定在预训练阶段进化出的最佳版本；它的全部精力都投入到改进那个特定任务AI的说明书上。

这种两阶段设计有一个显著的经济优势：预训练只需要做一次，产生的优秀优化师AI可以被反复用于不同任务的微调阶段，大幅摊薄了预训练的成本。就像一所医学院培养出一批优秀医生，这些医生可以去不同的医院工作，不需要每家医院都从头培养一批医生。

研究团队还区分了两种SePO配置。"SePO-专才"版本在预训练阶段只接触一种任务，相当于一开始就选定专业方向的学生；"SePO-通才"版本则接触多种任务混合的预训练池，是真正意义上先博后专的全科医生。默认推荐的是通才版本，因为多样化的训练背景通常能带来更强的泛化能力。

三、进化引擎的数学逻辑：如何挑父代、评子代、定去留

对细节感兴趣的读者可能想知道，这套进化机制的"裁判规则"具体是什么。研究团队在论文中给出了相当精确的数学定义，下面用尽量通俗的方式来解释这些规则。

父代选择使用的是一种"有记忆的概率抽签"。每个档案库中的提示词都有一个分数，分数越高，被抽中的概率越大。但系统会动态调整"区分力度"：当档案库里各提示词的分数差距很大时，系统会把高分选手的被选概率大幅提升，让最好的选手多多发挥；当分数差距很小时，系统会让所有选手的被选概率趋于平均，更广泛地探索不同可能性。与此同时，每个提示词被使用的次数越多，其被选概率就越低，确保系统不会反复围着同一个父代打转。

子代评分使用的是"与父代的准确率差值"。具体来说，如果父代提示词让AI在一批测试题上答对了60%，而子代提示词让AI答对了70%，那么子代的得分就是正10分。这种相对评分方式的好处是，不管任务本身有多难，只要子代比父代进步了，就能获得正分；没有进步甚至退步，就是负分。

档案库录取规则也很直接：子代分数必须高于或等于父代分数（允许有一点点测量误差）才能入库；否则直接淘汰。这个规则确保了档案库里的提示词整体质量只升不降，是一个严格的"精英制"淘汰机制。

四、测试战场：五个风格迥异的挑战

为了验证SePO的效果，研究团队选取了五个差异明显的任务作为测试场。这五个任务就像是五道难度和类型各异的考题，用来全面检验优化师AI到底把不同领域的任务AI调教得怎么样。

第一个任务是AIME'25，这是一批来自美国数学奥林匹克竞赛的高难度数学题，答案是0到999之间的整数。第二个任务是ARC-AGI-1，这是一组考验抽象视觉推理能力的谜题——给你几个输入格子和输出格子的变换样例，要求你推断规律并预测新格子应该如何变换，专门用来测试AI是否真正理解了模式而不只是记忆了答案。第三个任务是GPQA，这是一批研究生级别的科学多选题，覆盖物理、化学和生物学，设计上保证了连Google搜索也很难找到直接答案。第四个任务是MBPP，要求AI根据一段自然语言描述写出能通过单元测试的Python程序。第五个任务是数独，不过是4×4的简化版，仍然需要AI完整理解行列子格约束并给出正确解答。

五个任务涵盖了数字计算、视觉模式、科学知识、代码生成和逻辑推理，几乎没有交集，这保证了测试结果能够反映优化能力的真实宽度。

研究团队将SePO与三个对照基准进行比较。第一个对照是"Manual-CoT"，也就是人类手写的CoT（Chain-of-Thought，让AI逐步思考）提示词，代表了完全不做自动优化的基准水平。第二个对照是TextGrad，一个用文字版"梯度反传"来改进提示词的工具，其内部的优化器本身是人类写死的。第三个对照是MetaSPO，一个尝试学习跨任务通用提示词的元学习方法，同样，其内部的元优化器是人类写定的。

所有实验都使用DeepSeek-V3.2作为执行任务的AI模型，Gemini 3.1 Pro Preview作为优化师AI模型。任务AI使用温度为0的设定（确保每次输出稳定、可重复），优化师AI使用温度为1的设定（鼓励生成多样化的候选提示词）。每个实验重复5次取平均，以减少随机波动的影响。

五、实验结果：数字背后的故事

结果出来之后，数字讲述了一个清晰的故事。在五个任务上，SePO-通才版本全部取得了最高准确率，平均准确率达到76.38%，而人类手工基准Manual-CoT的平均准确率为71.89%，提升幅度约为4.49个百分点。TextGrad的平均准确率仅为70.39%，MetaSPO为71.32%，两者都低于未做任何优化的手工基准，说明这两种方法在这套测试配置下反而拖了后腿。SePO-专才版本的平均准确率为74.09%，高于所有基准，但低于通才版本2.29个百分点，说明多任务预训练确实带来了可量化的额外收益。

分任务来看，提升最为显著的是数独任务（从96.95%提升至99.90%）和MBPP代码生成任务（从91.20%提升至96.20%），以及ARC-AGI-1抽象推理任务（从37.30%提升至43.39%）。数学奥赛AIME'25的提升也相当可观（从57.55%提升至64.22%），科学多选题GPQA的提升相对温和（从76.46%提升至78.18%）。

为了验证SePO的每个组成部分是否都有实际贡献，研究团队还做了两个"去掉一个零件"的对比实验。第一个变体去掉了自我改进机制，即预训练阶段完全跳过，优化师AI在微调时使用人类最初写的原始说明书——结果平均准确率从76.38%下滑到74.94%，降低了1.44个百分点，而且ARC-AGI-1任务的损失最为明显，下降了3.63个百分点，说明自我改进对于高难度专业任务的帮助尤其突出。第二个变体去掉了开放式进化机制，改用一种简单的线性搜索（总是用最新生成的提示词替换上一个，不维护历史档案库）——结果平均准确率大幅下滑到72.64%，降低了3.74个百分点，AIME'25任务的损失最惨，下降了6.98个百分点，说明档案库机制对于避免搜索陷入局部最优至关重要。两个零件都不可缺少，各自解决不同的问题。

六、泛化能力的考验：没见过的任务，也能表现好吗？

一个更深层的疑问是：SePO的预训练阶段学到的，究竟是"会举一反三的通用优化能力"，还是"针对特定任务死记硬背的提示词模板"？如果是后者，那SePO对人类实践的价值就大打折扣，因为每碰到新任务都需要重新跑一遍耗时的预训练。

研究团队专门设计了实验来回答这个问题。他们测试了在预训练混合任务中包含或不包含与目标任务相关的任务，对最终结果有多大影响。结果显示，即便预训练任务集里没有任何与目标任务相关的任务，SePO的表现依然优于人类手工基准。以ARC-AGI-1为例，相关预训练任务确实提供了额外4.95个百分点的帮助，但就算没有相关任务，SePO仍然比手工基准好。

最令人信服的例子是数独任务。研究团队的测试中，数独从来没有出现在任何预训练任务集里——但SePO-通才仍然把数独的准确率从96.95%推高到99.90%。这说明预训练阶段学到的是一种真正意义上的通用优化技能，类似于一位优秀培训师具备的"分析问题、识别弱点、提出改进建议"的能力，而不是记住了某种特定套路。

七、多任务混合比例的选择：贪心算法如何挑选预训练课程

SePO-通才版本需要决定预训练阶段用哪些任务来训练优化师AI。任务太少可能错过重要的互补技能，任务太多则可能让信号被稀释，让优化师AI在训练中无所适从。研究团队为此设计了一套"贪心选取"算法。

这个算法的逻辑是，对于每一个候选任务，系统会评估两个维度：一是这个任务与最终测试任务有多相关（技能迁移潜力），二是这个任务与已经选入预训练集的其他任务有多不同（多样性贡献）。相关性确保训练内容不偏离目标，多样性确保不让相似任务在预训练集里重复叠加。算法每次加入一个当前得分最高的候选任务，直到达到预定的集合规模。

实验对比显示，在1个、2个、4个、8个任务规模的各种配置下，贪心选取方法在除了最大规模（8个任务，两种方法结果必然相同）以外的所有规模下都优于随机选取，尤其是在4个任务规模时差距最明显（贪心72.68% vs 随机71.14%）。最终选定的4任务预训练集是STEM数学题加ARC-AGI-1加LIMO数学推理数据加MBPP编程题，这个组合在难度和类型上的覆盖恰到好处。

八、成本账：自我进化的优化到底贵不贵？

任何实用技术都绕不开成本这道关卡。研究团队对各方法的训练成本做了详细统计，结果颇为出人意料。

TextGrad每个任务的训练成本在14.75美元到26.52美元之间，平均约20美元出头。SePO-专才版本每个任务的总成本（预训练加微调）在5.72美元到37.63美元之间，与TextGrad大体相当。而SePO-通才版本只需要一次性的37.14美元预训练，这笔费用均摊到五个任务上，每个任务仅分担7.43美元的预训练费用，再加上各自2.41至15.51美元的微调费用，大多数任务的总成本与TextGrad相近，但效果显著更好。

从成本效益角度看，SePO-通才是最划算的选择——它在五个任务中的四个上，总成本低于TextGrad，而准确率在所有五个任务上都更高。研究团队还指出，优化师AI在整个过程中消耗的token（文字量）只占总量的很小一部分，绝大多数成本来自于用训练数据反复运行任务AI来收集评分数据，这部分成本是各方法共同承担的，并非SePO独有的额外负担。

九、进化出来的说明书长什么样？定性解读

除了数字，研究团队还对进化前后的提示词做了定性对比分析，这部分内容尤其能帮助理解SePO到底在"教"AI做什么。

以优化师AI自身的说明书为例。原始的手工版本非常简洁，基本就是"分析当前说明书的成功案例和失败案例，提出改进建议，写出优化后的说明书"。经过5代进化之后，优化师AI的说明书变得精细和防御性得多：它明确警告自己不要给出会压缩AI推理深度的指令，不要给出会降低领域严谨性的建议，不要鼓励对特定测试案例的过度拟合，不要覆盖掉原本已经有效的行为，也不要在下游任务说明书里夹带元提示词的语言。这些规则的来源，正是历次进化中那些让AI表现变差的失败修改案例——档案库的淘汰机制迫使优化师AI学会了识别"哪类改法是有害的"，并把这种防范意识写进了自己的说明书。

对于任务AI的说明书，进化后的版本同样体现了一种"精准打补丁"的风格。以MBPP编程任务为例，进化后的说明书新增了一条针对性指令：在那个测试环境中，评测脚本会在全局命名空间里覆盖Python内置的max和min函数，导致任务AI直接调用这些内置函数时报错。进化后的说明书专门警告任务AI不要使用内置的max()和min()，而是用if/else比较语句手动实现，彻底规避这个环境陷阱。

数独任务的进化说明书则专门解决了一个LLM（大型语言模型）普遍存在的"重复字符识别错误"问题——LLM的分词器有时会把连续相同字符如"0000"错误地合并处理，导致AI把16位的数独字符串解析为错误的长度。进化后的说明书要求AI在解题前先把字符串按每四位切分，再把切分结果拼回来与原始输入逐字符比对，只有完全一致才继续解题，否则必须重新解析。

这种任务级别的精准补丁，正是自动化优化相较于人类手工调教的核心优势：人类很难在大量失败案例中逐一发现这些细小的系统性错误模式，而SePO的进化机制能够自动把反复出现的失败案例转化为针对性的防御指令。

十、模型通用性验证：换一套AI班底，结论是否依然成立？

一个合理的担忧是：SePO的所有成果是否都依赖于特定的模型组合（DeepSeek-V3.2 + Gemini 3.1 Pro Preview），换成其他AI是不是就不灵了？研究团队为此专门做了一轮模型替换实验，把任务AI换成Gemini 3.1 Flash-Lite Preview，把优化师AI换成Claude Opus 4.6，重新跑了所有五个任务。

结果显示，在新的模型组合下，SePO-通才依然在所有五个任务上优于人类手工基准，平均准确率从67.95%提升到70.08%，提升幅度为2.13个百分点。虽然绝对提升幅度比原始模型组合（4.49个百分点）小一些，但方向完全一致，说明SePO的核心逻辑并不依赖特定的模型特性，具有较好的模型无关性。

说到底，SePO这项研究真正有意思的地方不在于它在某个特定基准上提升了多少个百分点，而在于它提出并验证了一种思路：一个系统改进其他系统的过程，本身也可以是可改进的。以往的提示词优化像是雇了一位能力固定的顾问；SePO则是雇了一位会随着实践经验不断成长的顾问。这两者的长期差距，可能远比今天的实验数字能体现的大得多。

研究团队也坦诚地指出了当前方法的局限。在他们的初步测试中，把进化深度从5代扩展到更多代带来的收益是递减的，他们推测优化师AI的进化可能最终会碰到底层模型能力的天花板，但这个推测还没有经过充分验证。另外，目前的测试只覆盖了五个任务类别，还没有涉及工具使用型AI、多轮对话AI或长计划AI等场景，这些方向需要后续研究来填补。

对于这项技术的社会影响，研究团队也做了审慎的讨论。SePO让提示词优化从人工密集型变成了半自动化过程，降低了技术门槛。但自动进化系统也带来了一个普遍性问题：进化出来的东西是否还保持在人类可理解和可审查的范围内？研究团队的两个设计选择提供了一定保障：其一，SePO修改的唯一对象是自然语言的系统提示词，人类可以直接阅读和审查每一个候选版本；其二，档案库录取标准严格基于评分改进，禁止在评分不提升的方向上偏离。然而这也意味着，如果评分标准本身没有充分覆盖安全相关维度，进化出来的提示词可能在能力上很强，但在安全性上存在盲区。在实际部署中，使用SePO优化安全敏感任务时，需要在能力评分之外补充专门的安全评估标准。

可以预见，这个方向的后续发展会沿着两条路延伸。一条路是"循环迭代"——预训练和微调不只跑一轮，而是交替进行多轮，微调过程中发现的新型失败案例反哺到下一轮预训练，让优化师AI持续成长。另一条路是"扩大进化对象"——不只进化系统提示词，而是同时进化工具定义、检索策略、推理流程脚手架，把SePO从一个专注于提示词的工具升级为一个全面的AI自优化框架。

这项研究的完整内容，包括详细的数学推导、所有实验的原始数据和演化前后的提示词对比，均可通过arXiv编号2606.04465查阅；代码也已在论文中标注的GitHub仓库公开。

Q&A

Q1：SePO和普通的提示词优化方法有什么本质区别？

A：普通提示词优化方法会用一个"优化师AI"来修改任务AI的说明书，但这个优化师AI自己的说明书是人类手写固定的，从不改变。SePO的不同之处在于，它让优化师AI也用同一套方法来优化自己的说明书，相当于优化的循环被彻底关闭。打个比方，普通方法雇了一位能力固定的顾问，SePO则雇了一位随经验持续成长的顾问。

Q2：SePO的训练成本高吗？

A：SePO-通才版本的预训练一次性花费约37美元，但这笔钱可以均摊给后续所有任务使用。平均到五个测试任务上，每个任务分担约7.43美元的预训练成本，再加上各自2.41到15.51美元不等的微调成本，大多数任务的总成本与对比方法TextGrad（每任务14到26美元）相当，但在所有任务上的准确率都更高。

Q3：SePO优化出来的提示词，没接触过的全新任务是否也能受益？

A：实验结果显示可以。数独任务从未出现在SePO的任何预训练任务集里，但SePO-通才仍然把数独准确率从96.95%提升到99.90%。这说明预训练学到的是一种通用的"分析弱点、提出改进"的优化技能，而不是针对特定任务记住了某套固定套路。