Adobe技能调度员：AI多目标“走钢丝”平衡术

2026-05-29阅读 0热度 0

Research

想象一下：你要为一个AI助手写一份岗位说明书，规定它如何当客服、怎么写代码、怎样分析数据。理论上，你希望每个技能都写得详尽周全——多给点步骤、多列点注意事项、多举几个例子。但问题是，平台给每份说明书的篇幅是有限的。写得太长，就会被直接截断；写得不够，AI又不一定能做好。这就像要让一个员工同时在销售、研发、行政多个岗位上切换，还得保证每个岗位的手册不超出固定页码。你有多少字，就只能说多少事，想面面俱到，就得想办法在有限空间里拧出更多价值。

Adobe Research团队最近发布了一篇预印本，专门探讨这个问题。他们把AI助手的每个功能模块称为“技能”（skill），而把研究重点落在如何优化这些技能的描述文本，让AI在多个互相矛盾的目标之间找到平衡点。简单来说，就是既让AI把事情做对，又不让说明书写爆字数——这显然不是单靠“多写一些”能解决的，因为写得越多，越容易超限。

一位多重身份的"员工"

每个人都知道，找一个既能写代码、又能写报告、还能在会议上做精彩演讲的员工有多难。道理很简单——每一项能力都需要时间和精力来培养，而人的精力是有限的，样样精通往往意味着要在各方面做出取舍。

现代AI助手面临的困境与此如出一辙。当企业把一个AI系统部署为“智能客服”时，这个系统背后其实是由许多不同的“技能模块”拼接而成的——处理订单的技能、查询政策的技能、转接人工的技能……每个技能都像一份岗位说明书，告诉AI在面对特定情况时该怎么做、怎么说、怎么思考。Adobe Research团队把这种岗位说明书叫做“技能”，而他们的研究核心，就是如何让这份岗位说明书写得更好。

但问题来了：这份岗位说明书有字数限制。

一、当岗位说明书遇上字数限制

以Claude这类大型语言模型为例，它们的运作方式类似于一个共用办公室的团队。所有技能的说明书都放在同一个“公告栏”上，而公告栏的空间是固定的。如果某个技能的说明书写得太长、太啰嗦，它就会挤占其他技能的展示空间。平台规定，每个技能的“简介栏”最多只能写1024个字符，相当于一段较长的微博；而“操作说明”最多只能写5000个字符，相当于一篇短文。

这两个限制造成了一个真实的矛盾：为了让AI表现更好，你希望把操作说明写得尽可能详细，给出更多步骤、更多注意事项；但字数越多，就越容易超出平台限制，超出的部分会被直接截断——就好像你精心准备了一份十页的工作手册，但打印机只给你打出前六页。

Adobe Research团队把这个问题称为“多目标优化”问题。简单理解就是：你既想让AI做对答案（任务正确性），又不能让说明书超过字数限制（平台合规性）。这两个目标有时候是矛盾的，就像减肥的同时还想增肌——在某种程度上，你必须在两者之间做出取舍。

现有的大多数AI提示词优化工具（就是帮你自动改写岗位说明书的工具）根本没有意识到这个矛盾的存在。它们只盯着一个目标：让AI的回答尽量正确。结果就是，这些工具优化出来的说明书经常超出字数限制，在实际部署时反而会出问题。而MOCHA（Multi-Objective CHebyshev Annealing，多目标切比雪夫退火算法）正是为了解决这个被忽视的矛盾而生的。

二、现有工具为什么总是"卡壳"

研究团队设计了一个公平的竞赛：让三款当前最先进的提示词优化工具——TextGrad、ProTeGi和GEPA——在六项不同的AI任务上优化技能说明书，每款工具都有1000次“试错机会”。为了公平起见，所有工具都被告知了字数限制，都能看到每次试错的效果反馈。

结果令人惊讶：在六项任务中的四项，这三款工具在用完全部1000次机会后，交出来的说明书和原始版本一模一样——它们一个字都没改。1000次尝试，零进步。

为什么会这样？原因在于这些工具的“筛选逻辑”。每次工具生成一个改进版说明书，它都需要决定：这个改进版够好吗，值得保留吗？这些工具的判断标准是单一的——改进版比旧版更正确吗？但问题在于，对于那四项“卡住”的任务，说明书已经处于一个微妙的均衡点：要提升正确性，就必须让说明书变长，但变长就会违反字数限制，导致合规性下降；工具一看合规性下降了，觉得这个版本不够好，于是把它扔掉。如此循环，永远无法突破。

这就好比一个过于保守的厨师，每次尝试新配方，只要有一种味道变淡了，就立刻把整个菜扔掉——即便这道菜的整体口感其实变好了。单一的评判标准，让工具错失了那些“有得有失但整体更优”的改进方案。

三、MOCHA如何在得失之间找到平衡

Adobe Research团队提出的解决思路，本质上是教会AI优化工具接受“有得有失”的改进方案，并在不同类型的得失之间找到最佳平衡点。

这里需要引入一个核心概念：帕累托前沿。听起来很学术，但背后的逻辑其实非常直观。假设你在挑选手机，你关心两件事：价格和性能。显然，最贵的手机性能最好，但你买不起；最便宜的手机你付得起，但性能太差。在这两个极端之间，有一系列“各有所长”的选项：有的价格稍高但性能大幅提升，有的价格稍降但性能损失很小……把这些“无法被其他选项同时在价格和性能上都超越”的手机连成一条线，就是帕累托前沿。

对于技能说明书来说，帕累托前沿就是那些“无法在不牺牲其他目标的前提下进一步改进任何一个目标”的说明书版本集合。有的版本正确性很高但字数略超；有的版本完全合规但正确性稍逊；有的版本在两者之间找到了不错的平衡。这些版本都是有价值的，最终由人类决策者根据实际需求挑选最合适的一个。

MOCHA的第一个关键设计是使用“切比雪夫权重化”来选择每次要改进哪个版本的说明书。这个方法的精妙之处在于，它每次随机决定本轮最关注哪个目标——有时更看重正确性，有时更看重合规性——然后选出在当前最关注的目标上表现最差的那个版本来改进。这样的随机化策略能保证帕累托前沿的每个角落都会被照顾到，包括那些用简单线性方法永远找不到的“凹陷区域”。

数学上可以这样理解：如果你用“总分最高”来评选手机，你永远找不到那些“价格非常低、性能也还不错”的选项，因为它们的总分不如“价格中等、性能中等”的选项高。但切比雪夫方法不看总分，它看的是“在你最在意的那个维度上，这款手机离理想状态有多远”——这样就能覆盖到各种各样的用户偏好，发现更多元的优质选项。

四、两种探索模式的切换：从广撒网到精准打击

只有切比雪夫权重化还不够。Adobe Research团队还引入了第二个关键机制：超体积贡献和退火切换策略。

超体积贡献是一个衡量“某个版本的说明书为帕累托前沿贡献了多少新价值”的指标。形象地说，就是把帕累托前沿想象成一块被说明书版本们共同占领的地盘——每个新版本加入后，如果它能让这块地盘扩大（哪怕只扩大一点点），就说明它有价值。超体积贡献测量的就是这个“新增地盘”的大小。

MOCHA的工作分为两个阶段，就像一次科学考察活动：前半段广泛探索、后半段集中挖掘。

在探索阶段（优化预算的前半部分），MOCHA采用“广撒网”策略：只要一个新的说明书版本能为帕累托前沿贡献任何新地盘，哪怕只是一丁点，就值得关注和保留。这个阶段的目标是尽快发现帕累托前沿的全貌，找出各种各样的权衡点——正确性极高的版本、合规性极佳的版本、两者兼顾的折中版本……都要找到。

随着优化推进到后半段，MOCHA的接受标准逐渐收紧，进入利用阶段。这时它切换到切比雪夫一致接受策略：只有当新版本在“本轮最关注的方向上”确实有所改进时，才会被接受。这相当于从“只要有新发现就记录”切换到“只深入挖掘最有价值的区域”。

这个渐进式切换通过“退火阈值”来实现。退火这个词来自冶金学——把金属加热到高温后缓慢冷却，能让金属内部结构更均匀稳定。MOCHA借用了这个概念：一开始阈值较高（广泛接受各种改进），随着时间推移阈值慢慢降低（越来越挑剔，只接受最有价值的改进）。具体公式是指数衰减，确保阈值在大约一半预算消耗时就接近零，完成从探索到利用的过渡。

为了避免在探索阶段因为阈值还较高而错过真正有价值的候选，MOCHA还维护了一个小型“候选缓冲区”（容量为5），把最近发现的、超体积贡献为正的版本暂存起来。当某个候选的超体积贡献超过当前阈值时，就从缓冲区里取出超体积贡献最大的那个正式提交，确保每次提交的都是最有价值的发现。

五、每一次改写都知道字数限制在哪里

MOCHA在实现上还有一个细节值得关注：所有参与比较的工具（包括MOCHA和三款基准工具）使用的是同一套“改写模板”，由同一个更强大的AI模型（Claude Opus 4.6）来执行实际的说明书改写工作，而执行任务的AI助手则统一使用Claude Haiku 4.5。

这套改写模板会明确告诉负责改写的AI：简介栏最多1024个字符，操作说明最多5000个字符，当前版本的哪个字段超标了（例如“操作说明：不合格，当前6412字符，限制5000字符”），以及哪些例题答对了、哪些答错了。

由于所有工具共用这套改写模板，生成候选说明书的过程完全一样，唯一的区别就是“筛选和接受候选”的策略。这意味着实验结论非常干净：任何差异都来自选择策略本身，而非改写能力的高低。

六、六项任务，四项基准工具集体哑火

实验覆盖了六项性质各异的任务：研究生水平理科选择题、数学定理推理、多跳事实验证、多跳问答、事实核查和代码调试。每项任务各随机抽取100条训练样本、100条验证样本和100条测试样本，每种方法运行5个随机种子取平均值。

结果在前面已经提到过：三款基准工具在GPQA、HoVer、FEVER、DebugBench这四项任务上没有做出任何改进，1000次尝试后交回的说明书和初始版本完全一样。

MOCHA在所有六项任务上都实现了改进，相较最强基准工具ProTeGi，平均正确性提升了7.5%。在FEVER任务上提升幅度最大，达到14.9%；TheoremQA紧随其后，提升10.4%。相较于未经优化的初始说明书，MOCHA平均正确性提升了21.8%。

在帕累托前沿的质量上，MOCHA发现的非支配说明书版本数量是基准工具的两倍有余（平均3.6个 vs. 1.6个），三维超体积指标也高出约3.1%。基准工具的改进结果往往只停留在帕累托前沿的一个点上，而MOCHA的结果散布在从高正确性到高合规性的整条前沿曲线上，给决策者提供了更丰富的选择空间。

唯一的例外是HotpotQA任务，ProTeGi以0.622的正确性略高于MOCHA的0.600，但这个差距在统计上处于一个标准差之内，并不显著。研究团队分析，HotpotQA的初始说明书正确性只有0.336，极度低下，导致任何小幅调整都能带来巨大的正确性提升——这种情况下，正确性和合规性之间几乎不存在冲突，所有工具都能轻松改进，多目标优化带来的额外价值自然不那么突出。

七、拆开MOCHA，看看每个零件的贡献

研究团队还对MOCHA进行了消融实验——就是把MOCHA的某个零件拆掉，看看性能会如何变化，以此判断每个设计的实际价值。

拆掉超体积贡献门控后，优化器完全变成纯粹的利用模式，只靠切比雪夫准则做判断。这个版本的平均正确性最高（0.687），但发现的帕累托版本数量最少（3.4个），三维超体积也略低。换句话说，它像一个执着的专才，把正确性推到极致，但对合规性的多样化探索不足。

去掉退火切换后，优化器变成纯粹的探索模式，帕累托版本数量最多（3.8个），超体积最大（0.533），但正确性最低（0.671）。它像一个热情的探险家，把帕累托前沿的版图探索得最广，但没有集中精力把最有希望的方向深挖到极致。

完整的MOCHA（0.675正确性，3.6个帕累托版本，0.531超体积）处于两者之间，是探索与利用之间的平衡点。更重要的是，即便是三个MOCHA变体中正确性最低的“不退火”版本，其正确性（0.671）也比最强基准工具ProTeGi（0.628）高出4.3个百分点——这个差距是三款基准工具相互之间差距的五倍以上，充分说明是多目标选择框架本身在起作用，而不是某个具体零件的功劳。

八、改写前后，说明书变了什么

为了直观说明MOCHA带来的变化，研究团队展示了几个任务的具体案例。以事实核查任务为例，初始说明书只有两行：简介栏写“使用检索工具的事实核查”（38个字符，远低于1024上限），操作说明只写“给定字段'claim'和'evidence'，生成字段'verdict'”（67个字符，远低于5000上限）。三款基准工具看到这份说明书，认为它已经很完美了——简洁合规，无需更改——于是1000次尝试都没有动它。

MOCHA优化后的版本完全不同。简介栏变成了“FEVER式三分类事实核查：根据证据段落将陈述分类为SUPPORTS、REFUTES或NOT ENOUGH INFO”（137个字符，合规）。操作说明则扩展为一个结构化的五条规则加四步推理流程：第一条规则要求严格基于证据推理，不允许使用外部知识；第二条规则规定所有子陈述都必须有支持才能判定SUPPORTS；第三条规则指出REFUTES需要直接矛盾；第四条规则规定证据不足时默认NOT ENOUGH INFO；第五条规则禁止虚构标签。推理步骤是：分解陈述→逐项核查→检查矛盾→综合判断。这份说明书使用了2426个字符，虽然超过了最初的67个字符很多，但仍在5000字符的限制之内。

代价是操作说明合规性从0.99降到了0.38（虽然仍然合规，只是距离上限更近了），但正确性从0.63提升到了0.70。MOCHA接受了这个“正确性大幅提升、合规性有所消耗”的权衡，而基准工具的单一评判标准让它们对这种有价值的权衡视而不见。

代码调试任务的情况类似：初始说明书只有75个字符，三款基准工具原封未动，而MOCHA把它扩展为2315个字符的详细调试协议，涵盖了按错误类型分类的修复策略（引用错误、语法错误、逻辑错误、类型错误、多重错误各有针对性处理方法）、“保守修复原则”（不确定时宁可不改，错误的修复比遗漏的修复更糟糕）以及常见陷阱清单。正确性从0.62提升到了0.73。

九、意义与局限

归根结底，这项研究揭示了一个被长期忽视的问题：现有的AI提示词优化工具在面对多目标约束时，会陷入系统性的盲区。当任务目标之间存在真实冲突时，单一目标的筛选策略会让优化器一动不动，把千次尝试变成无效消耗。

MOCHA提出的解决路径——用切比雪夫权重化覆盖帕累托前沿的各个角落、用超体积贡献驱动早期探索、用退火阈值平滑过渡到精细利用——在实验上显示出了实质性的效果提升。

当然，研究团队也坦诚地指出了现有方法的局限。当各目标之间几乎不存在冲突时（比如HotpotQA这种初始正确性极低的任务），MOCHA相对于简单的单目标方法并没有明显优势，甚至可能因为在多目标探索上花费了额外代价而略逊一筹。自动判断任务是否存在目标冲突、从而决定是否需要启用多目标优化，是一个仍待解决的开放问题。此外，退火的速度目前是固定的指数衰减，无法根据优化过程的实际进展动态调整；合规性指标也与特定平台的规格绑定，换一个平台可能需要重新定义。

更长远来看，研究团队指出，MOCHA的多目标框架并不局限于“技能说明书”这个具体场景——任何涉及多个相互竞争目标的自然语言优化问题，原则上都可以套用这套机制。将它扩展到AI智能体整体工作流程的优化，或者与技能自动发现方法相结合，是研究团队未来计划探索的方向。

说到底，这项研究做的事情，就是给AI优化工具装上了一双“立体视觉”——不再只用单眼盯着正确性这一个维度，而是能同时看到合规性等多个维度，在它们之间找到真正实用的平衡点。这对于把AI助手真正部署到有硬性平台约束的商业环境中，是一个不可忽视的实际问题。

Q&A

Q1：MOCHA解决的是什么问题，为什么现有的AI提示词优化工具会“卡住”不动？

A：MOCHA解决的是AI技能说明书在多个目标（任务正确性和平台字数合规性）之间存在冲突时的优化问题。现有工具只用单一目标来筛选改进方案，当提升正确性必然导致说明书变长、进而违反字数限制时，工具会把这种“有得有失”的改进方案直接扔掉，陷入无法突破的僵局，哪怕尝试了1000次也毫无进展。

Q2：切比雪夫权重化在MOCHA中扮演什么角色，它比普通的加权求和好在哪里？

A：切比雪夫权重化每次随机决定本轮最关注哪个目标，然后重点改进在该目标上表现最差的说明书版本。普通的加权求和只能找到帕累托前沿上“总分最高”的那些方案，对于曲线凹入区域的方案束手无策。切比雪夫方法则能覆盖到帕累托前沿的所有区域，包括那些“某个目标非常突出但其他目标略有牺牲”的有价值方案，这一点在数学上有严格保证。

Q3：MOCHA的探索阶段和利用阶段具体是怎么切换的，退火阈值是什么意思？

A：MOCHA在优化前半段采用超体积贡献门控，只要新版本说明书能让帕累托前沿扩大哪怕一点点就记录下来，目标是快速发现多样化的权衡方案。随着预算消耗，退火阈值按指数衰减逐渐降低，到大约一半预算时已接近零，切换到切比雪夫一致接受策略，只有在当前最关注的方向上确实改进的方案才被接受。这个过程就像从“广泛勘探地形”切换到“在最有价值的矿区集中挖掘”。

Adobe技能调度员：AI多目标“走钢丝”平衡术

相关阅读

最新教程

最新资讯