中国科大AI技能图书馆深度解析：智能体如何从经验中高效学习与成长

2026-05-15阅读 0热度 0

智能体

这项由中国科学技术大学主导，联合多伦多大学和悉尼大学的研究，其预印本论文已于2026年4月发布，编号为arXiv:2604.17308，供学界同行审阅与探讨。

设想你聘用了一位新员工。他每次完成任务后，便将所有操作细节遗忘，下次面对同类工作时，又得从零开始摸索。这样的员工显然无法胜任。现实中，我们评估员工的核心标准之一，正是其将经验转化为可复用方法论的能力。这一人类职场的基本逻辑，恰恰是当前AI智能体发展面临的关键瓶颈。

研究团队正是基于此观察展开工作。他们注意到，越来越多的AI系统已能像人类一样操作工具，执行读取电子表格、分析文档、生成报告等多步骤复杂任务。这类“自主智能体”如同数字员工。为提升其效率，业界普遍做法是预先配置“技能包”——即一套操作指南，指示智能体应对特定问题。

然而，现有评测体系存在一个根本性缺失：它们大多只评估智能体能否应用现成技能，却极少追问——智能体能否自主提炼技能？遭遇失败后能否修正技能？随着任务累积，其技能库能否实现实质性进化？

为解答这些问题，团队构建了名为SKILLFLOW的测评框架，并对11种主流AI模型进行了系统性评估。结果揭示，不同模型在“经验学习”能力上的差距极为显著。表现最优的模型（Claude Opus 4.6）通过自我迭代，任务成功率从基准的62.65%提升至71.08%，增幅达8.43个百分点。而部分模型尽管频繁调用技能，任务表现却停滞不前甚至倒退。这明确区分了“机械调用”与“有效学习”的本质不同。

一、一套专门测试“边干边学”能力的闯关游戏

理解SKILLFLOW的最佳方式，是将其视为一套精心设计的闯关游戏。该框架包含20个任务系列，总计166个独立关卡。其设计精髓在于：同一系列中的所有任务，表面业务场景各异，但底层执行逻辑严格一致。

例如，某个系列可能围绕“财务报表滚动更新”展开。关卡一处理餐厅月度账目，关卡二切换至医院收支，关卡三则针对航空公司数据。尽管具体数字和业务实体不断变化，但核心操作流程恒定：读取多源数据、定位目标条目、过滤无效行、对齐调整项、执行滚动计算、与总量核对、最终输出汇总表。

这个“恒定不变的操作逻辑”，被研究团队定义为“DAEF”——领域无关执行流程。它类似于一套万能烹饪框架：食材与风味（任务内容）可变，但备料、烹制、调味、装盘的步骤顺序（操作逻辑）必须遵循同一模式。

为何采用此设计？核心目的在于：只有当一系列任务共享同一底层逻辑时，才能有效检验智能体是否具备从经验中抽象、复用“方法论”的能力。若每个任务逻辑迥异，则所谓“学习”便无从验证。

测评覆盖五大实用领域：金融经济、运营与供应链、医疗健康、治理与战略、数据与文档处理。每个领域均设计了数个典型工作流，如供应链补货计划、OCR数据提取、Excel加权风险评估、韩文文档自动化填写等，均源自真实高频业务场景。

在任务构建上，团队首先从SkillsBench和GDPval数据集中筛选出64个种子任务，并从中提炼出DAEF框架。随后，通过一套双智能体协同的自动化流程，为每个框架生成多样化变体任务。该流程模拟编辑与审稿机制：一个智能体（建筑师）负责设计新任务，另一个智能体（评审人）则在真实环境中验证其合理性与难度梯度。只有通过评审的任务才会被纳入最终测评集，并经过人工复核以确保质量。

二、智能体如何在游戏中积累自己的“技能图书馆”

SKILLFLOW的测评流程独具匠心。智能体在挑战首个任务时，没有任何外部参考，完全依赖其原始能力。任务完成后，系统会提供一份“执行反馈”，明确指出错误与未达标之处。

获取反馈后，智能体需执行关键操作：将此次经历提炼为一条可复用的经验条目，以文件形式存入其专属技能库。面对后续任务时，它便可检索库中经验，结合新任务要求制定方案。完成后再次获取反馈、更新技能库。这个“执行-反馈-更新-再执行”的闭环，构成了“智能体终身学习协议”。

技能存储格式极为精简。每次更新称为一个“技能补丁”，包含三部分：一段文字说明（总结新经验或修正旧错误）、需新增或修改的文件内容、以及需删除的过时文件。这种设计类似于版本控制系统，确保每次修改可追溯，便于研究人员分析学习轨迹。

技能文件本身遵循严格规范。每项技能存储在以技能命名的文件夹内，其中必须包含一个核心说明文件（SKILL.md），文件开头需注明技能名称与适用场景。说明文件内容应为可直接执行的操作指南，推荐写法是提供清晰的工作流、决策规则及常见错误案例。辅助脚本置于scripts子文件夹，详细参考文档或API说明置于references子文件夹，可复用模板则存放于assets子文件夹。

值得注意的是，技能库的更新完全由智能体自主完成，无需人工干预，也不依赖外部检索。技能的调用是自然发生的：当智能体在执行中读取或调用了技能库文件，系统便会记录此次调用，作为“技能复用率”的统计依据。

三、实验结果里藏着的冷知识：高使用率≠高收益

测试结果揭示了多项耐人寻味的发现。

表现最突出的是Claude Opus 4.6。在无技能库的基准测试中，它完成了166个任务中的104个，成功率62.65%。开启终身学习模式后，完成数升至118个，成功率跃至71.08%，净增8.43个百分点。此外，平均每任务费用从0.665美元降至0.615美元，生成文字量也从平均3000字降至2390字——实现了成本与效率的双重优化。

其他模型表现各异。MiniMax M2.5的成功率从28.31%升至34.94%，提升6.63个百分点。Claude Sonnet 4.5从49.40%升至55.42%，提升6.02个百分点。GPT 5.4从33.13%升至36.75%，提升3.62个百分点。

然而，Kimi K2.5的数据呈现了有趣现象。该模型在终身学习模式下，高达66.87%的任务都调用了技能库，表明其积极使用积累的经验。但任务成功率仅从55.42%微升至56.02%，涨幅仅0.60个百分点。高调用率与低收益增长形成了鲜明对比。

更极端的案例是几个出现性能倒退的模型。GPT 5.3 Codex的成功率从52.41%跌至46.39%，下降6.02个百分点。Qwen-Coder-Next从45.18%跌至44.58%。Qwen3-Coder-480B从24.70%跌至24.10%。MiniMax M2.7从37.35%跌至36.75%。这些模型不仅未能从技能积累中获益，反而表现更差。

研究团队还针对Claude Opus 4.6进行了一项对照实验：禁止其积累技能库，而是将之前所有任务的完整对话历史附在当前任务前作为参考。这种“堆砌原始记忆”的做法效果如何？成功率仅为51.04%，比无任何辅助的原始状态（62.65%）低了11.61个百分点。这证明，将经历转化为结构化的技能，远比简单堆积冗长的历史记录有效。正如厨师的成长依赖于精炼的食谱，而非反复观看每次下厨的全过程录像。

从领域分布看，技能进化的效果存在差异。数据与文档处理类任务从中获益最大，而金融与经济学类任务反而出现了更多负向变化。这表明技能进化的有效性具有任务类型依赖性。

四、为什么有些模型越学越强，有些越学越乱

研究团队深入分析了性能差异背后的原因，归纳出六项关键发现。

最核心的一条是：决定模型能否从技能进化中获益的关键，不在于其“生成”技能的能力，而在于其“修正”错误技能的能力。几乎所有模型都能在任务完成后写出一条技能条目，这并不困难。真正的分水岭在于，当某条技能记录了错误操作逻辑时，模型能否识别并纠正它？

与此紧密相关的第二项发现是：一旦错误技能被写入库中，其危害会沿任务序列向后传播。后续任务会继承这个错误逻辑，如同一个关键步骤出错的食谱，会导致所有照做的菜肴失败。这种错误传播效应，使得早期的错误技能尤为危险。

第三项发现涉及技能库规模的反直觉规律：更小的技能库，往往对应更好的任务表现。在表现最佳的设置中，技能库最终平均只存有一到两项高度概括的技能。反而是那些表现欠佳的模型，技能库里堆积了四五项甚至更多条目，但成功率并未提升。原因在于，强大的模型倾向于将多次任务中反复出现的操作逻辑，提炼成一条核心技能，并在学到新知识后对其进行修订与完善。而较弱的模型则习惯为每次任务单独总结一条新技能，导致技能库日益庞杂，充斥着大量内容重叠却各自为政的条目。

以Qwen系列和部分MiniMax设置为例，其技能数量几乎随任务编号单调递增，近乎每完成一个任务就新增一条。但技能数量的快速膨胀并未带来成功率的提升，反而让智能体在面对庞大库容时陷入“决策过载”，不知该参考哪一条，最终适得其反。

另一方面，Codex系列展示了另一种风格：它倾向于将相邻任务的变体融合进同一条不断演化的核心技能，而非另立新条目，从而保持技能库的精简。但有趣的是，这种精简风格并未转化为与Opus系列相当的任务完成率，说明技能库精简只是必要条件，而非充分条件。

五、一道真实任务的解题全程：智能体怎么学会处理Excel公式的坑

论文附录详细展示了一个真实任务案例，生动阐释了技能进化在实际中如何发生。

任务要求是：在一个Excel工作簿中，Task表单有一批黄色的空白单元格需要填写公式。第一步，要求填写INDEX+MATCH组合查询公式，数据源在Data表单的另一区域。第二步，要求计算六家医院的净患者流指标，并统计各列的最小值、最大值、中位数、均值、第25和第75百分位数。第三步，要求用SUMPRODUCT函数计算加权均值。

智能体初始遵循合理流程：先读取任务说明，然后调用技能库中已有的Excel公式任务技能——该技能提醒它先读取验证脚本，理解验证程序如何检查结果。智能体照做后，发现验证脚本会以`data_only=True`模式打开Excel文件。在此模式下，如果单元格只有公式字符串而没有缓存的计算结果，读取到的值将是空的。

这是一个经典陷阱：Python的openpyxl库可以向Excel单元格写入公式字符串，但本身不会计算公式，因此写入的公式没有配套的缓存值。如果验证程序以上述方式读取，就会得到全部空值，导致任务失败。

智能体识别出问题，开始寻找解决方案。它先尝试调用LibreOffice在后台重新计算工作簿，但发现容器环境中未安装该软件。又尝试使用名为`formulas`的Python库模拟计算，但该库计算出的结果同样无法被openpyxl以`data_only=True`方式读取。

随后，它转向了第三条路径：直接修改Excel文件内部的XML结构。Excel文件本质是一个ZIP压缩包，内含若干XML文件。单元格公式存储在``标签中，缓存值存储在``标签中。如果手动为每个有公式的单元格写入一个``标签，验证程序就能读到值了。

智能体开始实施该方案，但中途出现问题：它分多次修改XML，每次重新打包ZIP文件时，前一次写入的公式字符串被覆盖，最终导致部分单元格的公式消失，只剩缓存值。它诊断出根本原因是“多次XML修改导致公式字段被破坏”，于是果断放弃已修改的工作文件，重新从原始工作簿开始，先计算好所有单元格的Python值，然后在一次XML操作中统一写入所有缓存值。完成后运行验证脚本，167个公式单元格全部既有公式又有缓存值，任务通过。

任务完成后，智能体生成的技能补丁将整套经历提炼成一条清晰的操作指南。核心要点是：若验证方式使用`data_only=True`，则必须通过XML级别操作写入缓存值；所有XML修改必须一次性完成，绝不能分多次；LibreOffice和formulas库均不可靠，切勿依赖。技能中还提供了可直接复用的Python脚本，以及一张常见症状与对应修复方案的对照表。这条技能后来帮助智能体在该系列后续任务中大幅减少了试错次数。

六、这项研究和以往的AI评测有什么本质区别

研究团队在论文附录中通过详细对比表，将SKILLFLOW与几个知名AI评测系统进行了区分。Terminal-Bench和SWE-bench是两个知名的AI任务评测平台，它们完全不考察技能相关维度。SkillsBench是最接近本研究出发点的前人工作，它确实测试了技能对任务的帮助效果，也支持智能体自行生成技能，但它不考察技能的迭代修正、技能的跨任务积累复用、技能是否真正对应有效使用，也没有基于交互轨迹提炼技能。而SKILLFLOW在上述所有维度上都提供了系统性的评测方案。

这种系统性的差异，使得SKILLFLOW能够揭示一些以往评测从未触及的问题，例如：为何有些模型频繁调用技能却无收益？为何技能库膨胀反而会损害表现？为何修正错误技能的能力比生成技能的能力更重要？这些发现对于AI研究者理解当前模型的瓶颈具有直接的参考价值。

归根结底，这项研究表明，当前的AI智能体距离真正意义上的“经验学习”仍有相当距离。并非简单地配上一个可更新的技能库就能解决问题，关键在于其是否具备将失败经历转化为有价值修正的能力，而不仅仅是将经历堆积成越来越厚的档案。

对于希望深入了解此方向的读者，相关代码已在GitHub平台开源，可通过论文编号arXiv:2604.17308找到完整论文与仓库地址。这是一个相当前沿的研究方向，仍有大量问题有待探索：如何设计更好的技能修正激励机制？如何在不同类型任务间实现技能迁移？如何防止错误技能的持续传播？每一个问题背后，都是AI迈向真正自主学习所必须跨越的门槛。

Q&A

Q1：SKILLFLOW基准测试包含多少任务，覆盖哪些领域？

A：SKILLFLOW包含166个可执行任务，划分为20个任务系列。覆盖五大核心领域：金融与经济学、运营与供应链、医疗健康与生命科学、治理与战略，以及数据与文档处理。每个系列包含8到9个任务，这些任务共享同一套底层操作逻辑（DAEF），但具体的业务场景、文件内容和数据格式各不相同，专门用于测试智能体能否从一系列相似任务中抽象出可复用的经验。

Q2：Claude Opus 4.6在SKILLFLOW测试中提升了多少？

A：Claude Opus 4.6是11个被测模型中表现最优的。在没有技能库的基础设置下，其任务成功率为62.65%（完成104/166个任务）。开启终身学习模式、允许其积累和更新技能库之后，成功率提升至71.08%（完成118个任务），净提升8.43个百分点。同时，平均每任务费用从0.665美元降至0.615美元，生成文字量也有所减少，实现了效率的全面提升。

Q3：为什么有些模型技能使用率很高，任务成功率却没有提升？

A：这是SKILLFLOW测试揭示的核心发现之一。以Kimi K2.5为例，其在终身学习模式下有66.87%的任务调用了技能库，但成功率仅微升0.60个百分点，收益甚微。根本原因在于，调用技能与从技能中真正受益是两回事。如果一个模型倾向于为每次任务单独创建新技能，导致技能库快速膨胀、内容重叠，同时又缺乏有效修正错误技能的能力，那么高调用率只会增加认知负荷，而非带来能力提升。