Adobe技能调度员:AI多目标“走钢丝”平衡术
想象一下:你要为一个AI助手写一份岗位说明书,规定它如何当客服、怎么写代码、怎样分析数据。理论上,你希望每个技能都写得详尽周全——多给点步骤、多列点注意事项、多举几个例子。但问题是,平台给每份说明书的篇幅是有限的。写得太长,就会被直接截断;写得不够,AI又不一定能做好。这就像要让一个员工同时在销售、研发、行政多个岗位上切换,还得保证每个岗位的手册不超出固定页码。你有多少字,就只能说多少事,想面面俱到,就得想办法在有限空间里拧出更多价值。
Adobe Research团队最近发布了一篇预印本,专门探讨这个问题。他们把AI助手的每个功能模块称为“技能”(skill),而把研究重点落在如何优化这些技能的描述文本,让AI在多个互相矛盾的目标之间找到平衡点。简单来说,就是既让AI把事情做对,又不让说明书写爆字数——这显然不是单靠“多写一些”能解决的,因为写得越多,越容易超限。
一位多重身份的"员工"
每个人都知道,找一个既能写代码、又能写报告、还能在会议上做精彩演讲的员工有多难。道理很简单——每一项能力都需要时间和精力来培养,而人的精力是有限的,样样精通往往意味着要在各方面做出取舍。
现代AI助手面临的困境与此如出一辙。当企业把一个AI系统部署为“智能客服”时,这个系统背后其实是由许多不同的“技能模块”拼接而成的——处理订单的技能、查询政策的技能、转接人工的技能……每个技能都像一份岗位说明书,告诉AI在面对特定情况时该怎么做、怎么说、怎么思考。Adobe Research团队把这种岗位说明书叫做“技能”,而他们的研究核心,就是如何让这份岗位说明书写得更好。
但问题来了:这份岗位说明书有字数限制。
一、当岗位说明书遇上字数限制
以Claude这类大型语言模型为例,它们的运作方式类似于一个共用办公室的团队。所有技能的说明书都放在同一个“公告栏”上,而公告栏的空间是固定的。如果某个技能的说明书写得太长、太啰嗦,它就会挤占其他技能的展示空间。平台规定,每个技能的“简介栏”最多只能写1024个字符,相当于一段较长的微博;而“操作说明”最多只能写5000个字符,相当于一篇短文。
这两个限制造成了一个真实的矛盾:为了让AI表现更好,你希望把操作说明写得尽可能详细,给出更多步骤、更多注意事项;但字数越多,就越容易超出平台限制,超出的部分会被直接截断——就好像你精心准备了一份十页的工作手册,但打印机只给你打出前六页。
Adobe Research团队把这个问题称为“多目标优化”问题。简单理解就是:你既想让AI做对答案(任务正确性),又不能让说明书超过字数限制(平台合规性)。这两个目标有时候是矛盾的,就像减肥的同时还想增肌——在某种程度上,你必须在两者之间做出取舍。
现有的大多数AI提示词优化工具(就是帮你自动改写岗位说明书的工具)根本没有意识到这个矛盾的存在。它们只盯着一个目标:让AI的回答尽量正确。结果就是,这些工具优化出来的说明书经常超出字数限制,在实际部署时反而会出问题。而MOCHA(Multi-Objective CHebyshev Annealing,多目标切比雪夫退火算法)正是为了解决这个被忽视的矛盾而生的。
二、现有工具为什么总是"卡壳"
研究团队设计了一个公平的竞赛:让三款当前最先进的提示词优化工具——TextGrad、ProTeGi和GEPA——在六项不同的AI任务上优化技能说明书,每款工具都有1000次“试错机会”。为了公平起见,所有工具都被告知了字数限制,都能看到每次试错的效果反馈。
结果令人惊讶:在六项任务中的四项,这三款工具在用完全部1000次机会后,交出来的说明书和原始版本一模一样——它们一个字都没改。1000次尝试,零进步。
为什么会这样?原因在于这些工具的“筛选逻辑”。每次工具生成一个改进版说明书,它都需要决定:这个改进版够好吗,值得保留吗?这些工具的判断标准是单一的——改进版比旧版更正确吗?但问题在于,对于那四项“卡住”的任务,说明书已经处于一个微妙的均衡点:要提升正确性,就必须让说明书变长,但变长就会违反字数限制,导致合规性下降;工具一看合规性下降了,觉得这个版本不够好,于是把它扔掉。如此循环,永远无法突破。
这就好比一个过于保守的厨师,每次尝试新配方,只要有一种味道变淡了,就立刻把整个菜扔掉——即便这道菜的整体口感其实变好了。单一的评判标准,让工具错失了那些“有得有失但整体更优”的改进方案。
三、MOCHA如何在得失之间找到平衡
Adobe Research团队提出的解决思路,本质上是教会AI优化工具接受“有得有失”的改进方案,并在不同类型的得失之间找到最佳平衡点。
这里需要引入一个核心概念:帕累托前沿。听起来很学术,但背后的逻辑其实非常直观。假设你在挑选手机,你关心两件事:价格和性能。显然,最贵的手机性能最好,但你买不起;最便宜的手机你付得起,但性能太差。在这两个极端之间,有一系列“各有所长”的选项:有的价格稍高但性能大幅提升,有的价格稍降但性能损失很小……把这些“无法被其他选项同时在价格和性能上都超越”的手机连成一条线,就是帕累托前沿。
对于技能说明书来说,帕累托前沿就是那些“无法在不牺牲其他目标的前提下进一步改进任何一个目标”的说明书版本集合。有的版本正确性很高但字数略超;有的版本完全合规但正确性稍逊;有的版本在两者之间找到了不错的平衡。这些版本都是有价值的,最终由人类决策者根据实际需求挑选最合适的一个。
MOCHA的第一个关键设计是使用“切比雪夫权重化”来选择每次要改进哪个版本的说明书。这个方法的精妙之处在于,它每次随机决定本轮最关注哪个目标——有时更看重正确性,有时更看重合规性——然后选出在当前最关注的目标上表现最差的那个版本来改进。这样的随机化策略能保证帕累托前沿的每个角落都会被照顾到,包括那些用简单线性方法永远找不到的“凹陷区域”。
数学上可以这样理解:如果你用“总分最高”来评选手机,你永远找不到那些“价格非常低、性能也还不错”的选项,因为它们的总分不如“价格中等、性能中等”的选项高。但切比雪夫方法不看总分,它看的是“在你最在意的那个维度上,这款手机离理想状态有多远”——这样就能覆盖到各种各样的用户偏好,发现更多元的优质选项。
四、两种探索模式的切换:从广撒网到精准打击
只有切比雪夫权重化还不够。Adobe Research团队还引入了第二个关键机制:超体积贡献和退火切换策略。
超体积贡献是一个衡量“某个版本的说明书为帕累托前沿贡献了多少新价值”的指标。形象地说,就是把帕累托前沿想象成一块被说明书版本们共同占领的地盘——每个新版本加入后,如果它能让这块地盘扩大(哪怕只扩大一点点),就说明它有价值。超体积贡献测量的就是这个“新增地盘”的大小。
MOCHA的工作分为两个阶段,就像一次科学考察活动:前半段广泛探索、后半段集中挖掘。
在探索阶段(优化预算的前半部分),MOCHA采用“广撒网”策略:只要一个新的说明书版本能为帕累托前沿贡献任何新地盘,哪怕只是一丁点,就值得关注和保留。这个阶段的目标是尽快发现帕累托前沿的全貌,找出各种各样的权衡点——正确性极高的版本、合规性极佳的版本、两者兼顾的折中版本……都要找到。
随着优化推进到后半段,MOCHA的接受标准逐渐收紧,进入利用阶段。这时它切换到切比雪夫一致接受策略:只有当新版本在“本轮最关注的方向上”确实有所改进时,才会被接受。这相当于从“只要有新发现就记录”切换到“只深入挖掘最有价值的区域”。
这个渐进式切换通过“退火阈值”来实现。退火这个词来自冶金学——把金属加热到高温后缓慢冷却,能让金属内部结构更均匀稳定。MOCHA借用了这个概念:一开始阈值较高(广泛接受各种改进),随着时间推移阈值慢慢降低(越来越挑剔,只接受最有价值的改进)。具体公式是指数衰减,确保阈值在大约一半预算消耗时就接近零,完成从探索到利用的过渡。
为了避免在探索阶段因为阈值还较高而错过真正有价值的候选,MOCHA还维护了一个小型“候选缓冲区”(容量为5),把最近发现的、超体积贡献为正的版本暂存起来。当某个候选的超体积贡献超过当前阈值时,就从缓冲区里取出超体积贡献最大的那个正式提交,确保每次提交的都是最有价值的发现。
五、每一次改写都知道字数限制在哪里
MOCHA在实现上还有一个细节值得关注:所有参与比较的工具(包括MOCHA和三款基准工具)使用的是同一套“改写模板”,由同一个更强大的AI模型(Claude Opus 4.6)来执行实际的说明书改写工作,而执行任务的AI助手则统一使用Claude Haiku 4.5。
这套改写模板会明确告诉负责改写的AI:简介栏最多1024个字符,操作说明最多5000个字符,当前版本的哪个字段超标了(例如“操作说明:不合格,当前6412字符,限制5000字符”),以及哪些例题答对了、哪些答错了。
由于所有工具共用这套改写模板,生成候选说明书的过程完全一样,唯一的区别就是“筛选和接受候选”的策略。这意味着实验结论非常干净:任何差异都来自选择策略本身,而非改写能力的高低。
六、六项任务,四项基准工具集体哑火
实验覆盖了六项性质各异的任务:研究生水平理科选择题、数学定理推理、多跳事实验证、多跳问答、事实核查和代码调试。每项任务各随机抽取100条训练样本、100条验证样本和100条测试样本,每种方法运行5个随机种子取平均值。
结果在前面已经提到过:三款基准工具在GPQA、HoVer、FEVER、DebugBench这四项任务上没有做出任何改进,1000次尝试后交回的说明书和初始版本完全一样。
MOCHA在所有六项任务上都实现了改进,相较最强基准工具ProTeGi,平均正确性提升了7.5%。在FEVER任务上提升幅度最大,达到14.9%;TheoremQA紧随其后,提升10.4%。相较于未经优化的初始说明书,MOCHA平均正确性提升了21.8%。
在帕累托前沿的质量上,MOCHA发现的非支配说明书版本数量是基准工具的两倍有余(平均3.6个 vs. 1.6个),三维超体积指标也高出约3.1%。基准工具的改进结果往往只停留在帕累托前沿的一个点上,而MOCHA的结果散布在从高正确性到高合规性的整条前沿曲线上,给决策者提供了更丰富的选择空间。
唯一的例外是HotpotQA任务,ProTeGi以0.622的正确性略高于MOCHA的0.600,但这个差距在统计上处于一个标准差之内,并不显著。研究团队分析,HotpotQA的初始说明书正确性只有0.336,极度低下,导致任何小幅调整都能带来巨大的正确性提升——这种情况下,正确性和合规性之间几乎不存在冲突,所有工具都能轻松改进,多目标优化带来的额外价值自然不那么突出。
七、拆开MOCHA,看看每个零件的贡献
研究团队还对MOCHA进行了消融实验——就是把MOCHA的某个零件拆掉,看看性能会如何变化,以此判断每个设计的实际价值。
拆掉超体积贡献门控后,优化器完全变成纯粹的利用模式,只靠切比雪夫准则做判断。这个版本的平均正确性最高(0.687),但发现的帕累托版本数量最少(3.4个),三维超体积也略低。换句话说,它像一个执着的专才,把正确性推到极致,但对合规性的多样化探索不足。
去掉退火切换后,优化器变成纯粹的探索模式,帕累托版本数量最多(3.8个),超体积最大(0.533),但正确性最低(0.671)。它像一个热情的探险家,把帕累托前沿的版图探索得最广,但没有集中精力把最有希望的方向深挖到极致。
完整的MOCHA(0.675正确性,3.6个帕累托版本,0.531超体积)处于两者之间,是探索与利用之间的平衡点。更重要的是,即便是三个MOCHA变体中正确性最低的“不退火”版本,其正确性(0.671)也比最强基准工具ProTeGi(0.628)高出4.3个百分点——这个差距是三款基准工具相互之间差距的五倍以上,充分说明是多目标选择框架本身在起作用,而不是某个具体零件的功劳。
八、改写前后,说明书变了什么
为了直观说明MOCHA带来的变化,研究团队展示了几个任务的具体案例。以事实核查任务为例,初始说明书只有两行:简介栏写“使用检索工具的事实核查”(38个字符,远低于1024上限),操作说明只写“给定字段'claim'和'evidence',生成字段'verdict'”(67个字符,远低于5000上限)。三款基准工具看到这份说明书,认为它已经很完美了——简洁合规,无需更改——于是1000次尝试都没有动它。
MOCHA优化后的版本完全不同。简介栏变成了“FEVER式三分类事实核查:根据证据段落将陈述分类为SUPPORTS、REFUTES或NOT ENOUGH INFO”(137个字符,合规)。操作说明则扩展为一个结构化的五条规则加四步推理流程:第一条规则要求严格基于证据推理,不允许使用外部知识;第二条规则规定所有子陈述都必须有支持才能判定SUPPORTS;第三条规则指出REFUTES需要直接矛盾;第四条规则规定证据不足时默认NOT ENOUGH INFO;第五条规则禁止虚构标签。推理步骤是:分解陈述→逐项核查→检查矛盾→综合判断。这份说明书使用了2426个字符,虽然超过了最初的67个字符很多,但仍在5000字符的限制之内。
代价是操作说明合规性从0.99降到了0.38(虽然仍然合规,只是距离上限更近了),但正确性从0.63提升到了0.70。MOCHA接受了这个“正确性大幅提升、合规性有所消耗”的权衡,而基准工具的单一评判标准让它们对这种有价值的权衡视而不见。
代码调试任务的情况类似:初始说明书只有75个字符,三款基准工具原封未动,而MOCHA把它扩展为2315个字符的详细调试协议,涵盖了按错误类型分类的修复策略(引用错误、语法错误、逻辑错误、类型错误、多重错误各有针对性处理方法)、“保守修复原则”(不确定时宁可不改,错误的修复比遗漏的修复更糟糕)以及常见陷阱清单。正确性从0.62提升到了0.73。
九、意义与局限
归根结底,这项研究揭示了一个被长期忽视的问题:现有的AI提示词优化工具在面对多目标约束时,会陷入系统性的盲区。当任务目标之间存在真实冲突时,单一目标的筛选策略会让优化器一动不动,把千次尝试变成无效消耗。
MOCHA提出的解决路径——用切比雪夫权重化覆盖帕累托前沿的各个角落、用超体积贡献驱动早期探索、用退火阈值平滑过渡到精细利用——在实验上显示出了实质性的效果提升。
当然,研究团队也坦诚地指出了现有方法的局限。当各目标之间几乎不存在冲突时(比如HotpotQA这种初始正确性极低的任务),MOCHA相对于简单的单目标方法并没有明显优势,甚至可能因为在多目标探索上花费了额外代价而略逊一筹。自动判断任务是否存在目标冲突、从而决定是否需要启用多目标优化,是一个仍待解决的开放问题。此外,退火的速度目前是固定的指数衰减,无法根据优化过程的实际进展动态调整;合规性指标也与特定平台的规格绑定,换一个平台可能需要重新定义。
更长远来看,研究团队指出,MOCHA的多目标框架并不局限于“技能说明书”这个具体场景——任何涉及多个相互竞争目标的自然语言优化问题,原则上都可以套用这套机制。将它扩展到AI智能体整体工作流程的优化,或者与技能自动发现方法相结合,是研究团队未来计划探索的方向。
说到底,这项研究做的事情,就是给AI优化工具装上了一双“立体视觉”——不再只用单眼盯着正确性这一个维度,而是能同时看到合规性等多个维度,在它们之间找到真正实用的平衡点。这对于把AI助手真正部署到有硬性平台约束的商业环境中,是一个不可忽视的实际问题。
Q&A
Q1:MOCHA解决的是什么问题,为什么现有的AI提示词优化工具会“卡住”不动?
A:MOCHA解决的是AI技能说明书在多个目标(任务正确性和平台字数合规性)之间存在冲突时的优化问题。现有工具只用单一目标来筛选改进方案,当提升正确性必然导致说明书变长、进而违反字数限制时,工具会把这种“有得有失”的改进方案直接扔掉,陷入无法突破的僵局,哪怕尝试了1000次也毫无进展。
Q2:切比雪夫权重化在MOCHA中扮演什么角色,它比普通的加权求和好在哪里?
A:切比雪夫权重化每次随机决定本轮最关注哪个目标,然后重点改进在该目标上表现最差的说明书版本。普通的加权求和只能找到帕累托前沿上“总分最高”的那些方案,对于曲线凹入区域的方案束手无策。切比雪夫方法则能覆盖到帕累托前沿的所有区域,包括那些“某个目标非常突出但其他目标略有牺牲”的有价值方案,这一点在数学上有严格保证。
Q3:MOCHA的探索阶段和利用阶段具体是怎么切换的,退火阈值是什么意思?
A:MOCHA在优化前半段采用超体积贡献门控,只要新版本说明书能让帕累托前沿扩大哪怕一点点就记录下来,目标是快速发现多样化的权衡方案。随着预算消耗,退火阈值按指数衰减逐渐降低,到大约一半预算时已接近零,切换到切比雪夫一致接受策略,只有在当前最关注的方向上确实改进的方案才被接受。这个过程就像从“广泛勘探地形”切换到“在最有价值的矿区集中挖掘”。
