AI智能体技能升级包权威测评:复旦微软联合揭秘
这项由复旦大学、微软研究院与上海交通大学联合推进的研究,于2026年5月以预印本形式公开,论文编号为arXiv:2605.23899,查阅完整原文可通过该编号直接检索。
---
一个人通过反复试错与经验积累最终成为领域专家,这一过程与当前AI智能体的成长路径高度契合。如今的AI早已超越简单问答,能够自主执行复杂任务:整理电子表格、修复代码漏洞、检索网络信息、操控软件界面。这类具备自主行动能力的AI,研究界统称为“语言智能体”。
智能体在任务执行中会留下大量“行为日志”——哪些操作成功、哪些失败、走了哪些弯路。一个自然而然的构想随之诞生:能否将这些日志提炼成一份“技能手册”,供智能体在后续相似任务中直接调用,从而提升表现?这份手册,研究者称之为“技能”。
目前已有多种方法能自动从AI行为日志中抽取此类技能手册,无需人类专家手工编写,大幅降低人力成本并提高可扩展性。然而,一个关键问题长期被忽略:这些自动生成的技能究竟是否有效?在什么场景下有效?又为何有时反而导致AI表现退化?
来自复旦大学、微软研究院与上海交通大学的研究团队,投入大量精力构建了一套系统性评测框架,首次从“技能生成、技能提炼、技能使用”三个环节全面审视这一问题。研究结果既令人振奋也发人深省——技能确实能带来提升,但绝非万能,其背后隐藏着大量微妙的规律值得深入挖掘。
---
一、技能的一生:从经历到行动的三段旅程
要理解这项研究,需先理清AI技能是如何“运转”的。研究团队用三段式流水线描述全过程,分别对应技能的诞生、锻造与使用。
第一段称为“经历生成”。此阶段将智能体放入任务环境中自由探索,如同新员工实际操练,记录每一步操作及其结果。成功的行动与失败的尝试均被保留,形成“经历池”。
第二段称为“技能提炼”。系统调用另一AI模型(或同一模型)扮演“导师”角色,对原始经历进行归纳总结,提炼出一份结构化的技能文档——类似操作说明书,指明智能体面对此类任务时应注意什么、规避什么、重点执行什么。
第三段称为“技能使用”。提炼好的技能被注入智能体的“工作记忆”,智能体在应对新任务时可随时参考这份说明书。研究者通过对比“携带技能”与“不带技能”两种情况下的表现,衡量技能的真实价值。
这套流程包含两个关键角色:一是“提炼者”,负责将经历转化为技能;二是“消费者”,负责运用技能完成任务。有趣的是,这两个角色可由同一AI模型担任,也可由不同模型分别担任。研究团队正是通过系统性地变换这两个角色,观察技能效果的变化规律。
---
二、大规模实验:跨越五个领域、六个模型的全面考察
为确保结论的可靠性,研究团队选择了五个截然不同的任务领域进行实验。这五个领域覆盖当前AI智能体最典型的使用场景:模拟家庭环境中的物理操作(如找到苹果、清洗杯子、将食物加热后放入冰箱,对应测试集ALFWorld)、电子表格操作、真实软件代码漏洞修复、基于网络搜索的复杂问答,以及多轮工具调用。
参与实验的AI模型同样来自多个“流派”:OpenAI的GPT-5.4和GPT-5.4-mini、谷歌的Gemini-3.1-Pro和Gemini-3.1-Flash-Lite、阿里的Qwen3.5-35B和Qwen3.5-9B。六个模型全部担任“消费者”角色,其中除Qwen3.5-9B(因无法可靠遵循提炼协议)外,其余五个模型同时担任“提炼者”角色。
实验矩阵规模庞大:五个领域 × 六个消费者 × 五个提炼者,产生150个独立组合,每个组合重复评估三次取均值。最终汇聚成一张详细的“成绩单”,记录每种组合下智能体在携带技能与无技能时的表现差异。
研究团队还定义了两个便于分析的综合指标。“提炼效能”衡量同一提炼者在面对不同消费者时平均能带来多少提升——反映提炼能力本身的优劣。“目标可进化性”衡量同一消费者在接受不同提炼者制作的技能时平均能获得多少提升——反映消费者从技能中获益的能力。
---
三、令人意外的成绩单:有用,但危险也真实存在
总体来看,自动生成的技能确有价值。在所有150个实验组合中,约75%的情况下智能体在获得技能后表现更佳。这看似乐观,但剩余25%却是货真价实的“负迁移”——智能体在技能加持后表现反而下降。
25%的负迁移比例不容低估,且在不同领域内分布极不均衡。最“脆弱”的领域是ALFWorld(家庭物理任务),近47%的组合出现负迁移。相比之下,电子表格操作和软件漏洞修复领域的负迁移率仅为13%,稳健得多。由此可见,技能的价值并非放之四海而皆准,其效果深受任务领域本身特性的影响。
更出人意料的是提炼者的表现规律。按直觉推断,能力越强的AI应能提炼出越好的技能。然而实验给出了相反结论。以电子表格任务为例,规模最小、能力相对较弱的Gemini-3.1-Flash-Lite在提炼效能指标上排名第一,而基础任务表现最强的GPT-5.4反而垫底。这种反转清晰表明,提炼技能是一种独立于任务执行的特殊能力,两者并不挂钩。优秀的“师傅”未必是最强的“选手”,而最强的“选手”也未必能将自己的经验总结成他人可学的指导。
消费者端的差异同样发人深省。在ALFWorld领域,GPT-5.4从所有五个提炼者处均获得稳定提升,综合可进化性得分达到+4.93个百分点。然而同领域内,Gemini-3.1-Flash-Lite、Qwen3.5-35B和Qwen3.5-9B的综合得分均为负数——对这些模型而言,技能平均来说反而有害。同一套技能,有的模型能消化吸收,有的模型却无法承受,甚至产生“消化不良”。
---
四、经历的质量决定技能的价值:失败多好还是成功多好?
既然技能从经历中提炼而来,经历本身的构成便至关重要。研究团队专门设计实验回答一个看似简单的问题:在用于提炼技能的经历池里,成功案例多好,还是失败案例多好?
实验方法直接:固定同一提炼者,从同一批原始经历中抽取五种不同比例的经历池——100%成功、75%成功、50%成功、25%成功、0%成功(全部失败)。对这五种经历池分别提炼技能,评估各自在电子表格、代码修复和家庭任务三个领域的效果。
结果揭示了两条重要规律。第一条:全部由失败案例组成的经历池在所有领域均产生最差技能。这说明成功经历是技能的基础,仅有失败案例时,提炼者无法获取“应该怎么做”的正面引导,只能得到一堆“不要这样做”的警告,显然不够。换句话说,失败经历能告诉你“坑在哪”,但光知道坑还不够,还得知道“路在哪”。
第二条规律更微妙:最优的成功与失败比例因领域而异。电子表格任务倾向于成功案例越多越好;代码修复任务在成功占多数时达到峰值;而家庭任务却在失败案例占较大比例时表现最佳。家庭任务这一特性颇具意味:在此环境中,失败通常意味着走入死胡同或尝试无效动作,这类失败信息对于缩小探索空间、避免重复错误具有特殊价值。不同领域的任务结构不同,失败经历所携带的信息价值也随之不同。
---
五、看起来好的技能,不一定真的好用
解决了“用什么材料提炼”的问题后,研究团队将目光转向技能文本本身的质量:一份技能文档看起来写得不错,是否意味着它真能让AI表现更好?
第一个测试针对格式。团队将同一份技能内容改写成四种不同格式:有序编号列表、无序符号列表、复选框清单和普通段落。直觉上,格式整齐、条理清晰的内容应更容易被AI理解。然而统计检验显示,这四种格式在所有六个消费者模型上的效果差异均无法与随机波动区分。与此形成鲜明对比的是,换一个不同的提炼者所产生的效果差异,在六分之五的消费者模型上达到统计显著性。这意味着技能怎么排版根本无关紧要,关键在于它说了什么。
第二个测试更具戏剧性。团队让GPT-5.4扮演“评审官”,查看两份从同一消费者经历中提炼出的技能,并判断哪份技能更可能产生更好效果。实验目的是测试:语言模型凭借自身直觉能否分辨真正有用的技能?
答案令人汗颜。在无任何评估标准指引下,评审官选对的概率仅为46.4%,几乎与随机猜测无异。更糟糕的是,当团队只看那些两份技能真实效果差距超过5个百分点的“悬殊”对决时,评审官选对的概率跌至15.8%——这已是明显的反向选择。换句话说,两份技能差距越大,评审官越倾向于选中看起来更好但实际上更差的技能。技能的“颜值”与“实力”之间存在令人不安的背离。
团队从一个具体反例中获得启示。他们发现,在真实效果最好的技能中,往往包含这样的内容:明确指出某个具体的失败机制,并给出可执行的对策,例如“在无界面环境下,公式字符串不会被计算引擎执行,因此必须在Python中预先计算出静态数值再写入”。而那些措辞严谨、逻辑清晰但实际效果平平的技能,往往只给出泛泛的流程建议,比如“在编码前先明确任务要求”——这话没错,但毫无操作性。
---
六、同一份技能,不同的AI消化能力天差地别
在技能的消费端,研究团队设计了“跨模型技能移植”实验,专门考察同一份技能被不同AI使用时效果如何变化。
他们从电子表格任务中挑出两份技能:一份由基础表现最强的消费者(GPT-5.4)的经历提炼而成(“强池技能”),另一份由基础表现最弱的消费者(Qwen3.5-9B)的经历提炼而成(“弱池技能”)。然后将这两份技能分别注入六个不同的消费者模型,观察各自表现变化。
强池技能表现出“普惠性”:六个消费者全部从中受益,提升幅度从1.8个百分点到9.5个百分点不等。相比之下,弱池技能则分化明显:部分消费者依然能受益,部分却出现明显负迁移,例如GPT-5.4在使用弱池技能后反而下滑2.0个百分点。这再次验证了前文发现:经历池的质量直接决定了最终技能的广谱适用性。
研究团队还深入分析了技能对智能体行为的实际影响,选取GPT-5.4(受益明显)和Qwen3.5-9B(部分情况下受损)这两个对比鲜明的案例进行详细观察。
在决策行为上,技能的注入改变了智能体在任务开始时的整体策略选择。对GPT-5.4而言,技能引导其从“写公式作为答案”的策略转向“用Python计算出数值再写入”这一更可靠的方式——这是一种策略纠正,而非能力扩展。对Qwen3.5-9B而言,技能同样推动了策略转变,使其尝试更原生的工作表操作方式,但这种更复杂的操作反而增加了出错概率,得不偿失。
在探索行为上,两个模型在接受技能后都更频繁地在正式行动前检查工作表的结构、表头和数据范围。但对Qwen3.5-9B来说,这种额外探索并不总能转化为更好的执行,有时反而使推理链条更长更复杂,最终仍以错误收场。
在工具使用行为上,技能的影响并非让模型去“调用技能工具”,而是悄然改变其使用现有工具的方式。GPT-5.4更倾向于使用有边界保护的写入操作和基于锚点的单元格定位;Qwen3.5-9B则从数据框式的整体重写转向更精细的单元格级别操作,尽管结构保真度有所提升,但执行稳定性却下降了。
---
七、从诊断到改进:用研究发现来指导技能提炼
发现问题之后,研究团队做了一件更有价值的事:将发现转化为可直接使用的改进方案。
出发点是一个简单对比:直接问AI“评判一个好技能应看哪些维度”,它会给出什么答案?结果AI列出了七个维度:清晰度、完整性、简洁性、逻辑结构、格式质量、语气中立性和普遍适用性。这些维度听起来都很合理,但研究团队将其称为“表面合理性评分标准”——因为它们关注的是文本外观,而非实际效果。
研究团队接下来用一套自动化流程来发现那些真正与效果相关的维度。他们从实验矩阵中挑出17对“效果差距大”的技能对——即用同一消费者经历、不同提炼者产生、效果相差悬殊的两份技能。然后让GPT-5.4逐对分析:效果好的那份在哪些方面胜过效果差的那份?收集所有对比分析后,再将这些差异汇总合并,最终提炼出七个候选维度,称为“原始评分标准”。
这七个候选维度分别是:失败机制编码(说清楚为什么会失败,而非仅说会失败)、可操作的具体性(步骤级别的操作指南,明确引用领域内对象和工具)、环境与工具语义(编码工具和对象的实际行为方式)、策略切换条件(何时应改变方法)、边界条件覆盖(处理特殊情况)、高风险操作黑名单(明确禁止某些有害操作模式)、以及基准对齐优先级(聚焦评估实际衡量的内容)。
为验证哪些维度真正有预测力,研究团队对每个维度单独测试:以该维度作为判断依据,在151对高差距技能对中,效果更好的那份技能是否确实在这维度上得分更高?最终,失败机制编码(准确率65.5%)、可操作的具体性(66.0%)和高风险操作黑名单(64.6%)三个维度脱颖而出,其预测力显著高于随机水平。这三个维度组合成“验证后的评分标准”。
将这组评分标准重新提供给评审官,整体准确率从46.4%跃升至73.8%。更值得注意的是,那些最难判断的高差距技能对(效果差距超过5个百分点),在无指引时评审官仅有15.8%的概率选对,而采用三维度标准后,选对概率大幅反转,超过一半。
随后,研究团队将这组评分标准转化为一段简短的“元技能”——一段描述好技能应具备哪些特征的指导文字,在提炼者开始工作前注入其提示词,相当于为提炼者预先灌输一套质量意识。
最终效果极具说服力。采用七维表面合理性标准作为指引时,九个评估格(三个领域 × 三个消费者)中有六个出现性能下降,平均降低0.59个百分点——说明错误的质量标准不仅无用,还会起反作用。而采用三维验证后标准作为元技能指引时,九个格全部实现性能提升,平均提高1.55个百分点,尤其在电子表格任务上提升明显,从原始技能效果再提高2.3到3.7个百分点。这套元技能无需修改任何底层流程,仅在提炼者的系统提示词中添加一段话,即可稳定改善技能质量。
---
说到底,这项研究告诉我们什么?
归根结底,这支研究团队所做的工作,是为“AI智能体学习经验”这一机制做了一次彻底体检。他们发现,技能机制总体有价值,但绝非万灵药:四分之一情况下会帮倒忙,且这种风险因领域、因模型不同而大相径庭。
更重要的是,三个阶段的问题各不相同。在经历生成阶段,需在成功案例与失败案例之间找到适合该领域的平衡点,而非盲目堆砌某一种;在技能提炼阶段,能力强的模型未必是好的提炼者,且技能看起来是否有道理与其实际效果完全是两回事;在技能使用阶段,不同消费者消化技能的能力差距惊人,有的模型能将技能转化为切实的策略提升,有的却会被技能误导,走向更复杂但更不稳定的操作路径。
这对任何想为自己的AI产品构建技能库的人都有直接参考价值。首先,选择提炼者不能简单选“最强的模型”,而应考虑其与消费者、任务领域的匹配程度。其次,技能提炼前的经历池构成值得认真设计,而非简单堆砌越多越好。最重要的是,判断技能质量的标准必须来自真实效果数据,而非直觉或审美——一份“看起来写得好”的技能,很可能正是需要淘汰的那份。
对于非AI研究领域的普通读者而言,这个故事或许也带来一丝启发:经验积累与学习效果之间本就不是简单的线性关系。照搬他人经验未必适合自己;而那些条理清晰、措辞得体的“操作手册”,未必比一份写着“上次就是因为X而失败、下次要做Y”的潦草笔记更有用。真正有价值的经验,在于它能否帮你避开你最可能踩的坑。
---
Q&A
Q1:AI技能提炼中,为什么让“能力最强的AI”负责提炼技能反而效果不好?
A:实验结果显示,提炼技能的能力与执行任务的能力是两种不同特质,两者并不挂钩。能力强的模型擅长完成任务,但未必擅长将自己的经历转化为其他模型能理解并使用的指导。提炼技能需要准确识别经历中真正有价值的操作规律,并以对消费者有用的方式表达出来,这与模型的整体能力大小没有直接关系。
Q2:为什么AI智能体在看了技能手册后,有时候反而表现变差了?
A:实验表明,技能消费的效果因模型而异。技能注入并非给模型添加新工具,而是改变其默认决策策略。对某些模型而言,这种改变会引导其采用更可靠的方法;对另一些模型,技能描述的更复杂操作方式超出了其稳定执行的能力范围,反而导致更多错误。简言之,并非所有模型都能消化同一份技能,消化能力本身就是因模型而异的特质。
Q3:研究发现的“元技能”具体是什么,怎么使用?
A:元技能是一段描述好技能应具备哪些特征的指导文字,基于三个与实际效果真正相关的维度:清楚说明失败的具体机制、提供可执行的操作步骤而非泛泛建议、以及明确列出哪些有害操作绝对要避免。使用方式极其简单:在AI提炼者开始工作前,将这段描述加入其系统提示词即可,无需修改任何底层流程,就能稳定提升最终技能的质量。
