中国科大AI技能图书馆深度解析:智能体如何从经验中高效学习与成长

2026-05-15阅读 0热度 0
智能体

这项由中国科学技术大学主导,联合多伦多大学和悉尼大学的研究,其预印本论文已于2026年4月发布,编号为arXiv:2604.17308,供学界同行审阅与探讨。

中国科学技术大学打造的AI

设想你聘用了一位新员工。他每次完成任务后,便将所有操作细节遗忘,下次面对同类工作时,又得从零开始摸索。这样的员工显然无法胜任。现实中,我们评估员工的核心标准之一,正是其将经验转化为可复用方法论的能力。这一人类职场的基本逻辑,恰恰是当前AI智能体发展面临的关键瓶颈。

研究团队正是基于此观察展开工作。他们注意到,越来越多的AI系统已能像人类一样操作工具,执行读取电子表格、分析文档、生成报告等多步骤复杂任务。这类“自主智能体”如同数字员工。为提升其效率,业界普遍做法是预先配置“技能包”——即一套操作指南,指示智能体应对特定问题。

然而,现有评测体系存在一个根本性缺失:它们大多只评估智能体能否应用现成技能,却极少追问——智能体能否自主提炼技能?遭遇失败后能否修正技能?随着任务累积,其技能库能否实现实质性进化?

为解答这些问题,团队构建了名为SKILLFLOW的测评框架,并对11种主流AI模型进行了系统性评估。结果揭示,不同模型在“经验学习”能力上的差距极为显著。表现最优的模型(Claude Opus 4.6)通过自我迭代,任务成功率从基准的62.65%提升至71.08%,增幅达8.43个百分点。而部分模型尽管频繁调用技能,任务表现却停滞不前甚至倒退。这明确区分了“机械调用”与“有效学习”的本质不同。

一、一套专门测试“边干边学”能力的闯关游戏

理解SKILLFLOW的最佳方式,是将其视为一套精心设计的闯关游戏。该框架包含20个任务系列,总计166个独立关卡。其设计精髓在于:同一系列中的所有任务,表面业务场景各异,但底层执行逻辑严格一致。

例如,某个系列可能围绕“财务报表滚动更新”展开。关卡一处理餐厅月度账目,关卡二切换至医院收支,关卡三则针对航空公司数据。尽管具体数字和业务实体不断变化,但核心操作流程恒定:读取多源数据、定位目标条目、过滤无效行、对齐调整项、执行滚动计算、与总量核对、最终输出汇总表。

这个“恒定不变的操作逻辑”,被研究团队定义为“DAEF”——领域无关执行流程。它类似于一套万能烹饪框架:食材与风味(任务内容)可变,但备料、烹制、调味、装盘的步骤顺序(操作逻辑)必须遵循同一模式。

为何采用此设计?核心目的在于:只有当一系列任务共享同一底层逻辑时,才能有效检验智能体是否具备从经验中抽象、复用“方法论”的能力。若每个任务逻辑迥异,则所谓“学习”便无从验证。

测评覆盖五大实用领域:金融经济、运营与供应链、医疗健康、治理与战略、数据与文档处理。每个领域均设计了数个典型工作流,如供应链补货计划、OCR数据提取、Excel加权风险评估、韩文文档自动化填写等,均源自真实高频业务场景。

在任务构建上,团队首先从SkillsBench和GDPval数据集中筛选出64个种子任务,并从中提炼出DAEF框架。随后,通过一套双智能体协同的自动化流程,为每个框架生成多样化变体任务。该流程模拟编辑与审稿机制:一个智能体(建筑师)负责设计新任务,另一个智能体(评审人)则在真实环境中验证其合理性与难度梯度。只有通过评审的任务才会被纳入最终测评集,并经过人工复核以确保质量。

二、智能体如何在游戏中积累自己的“技能图书馆”

SKILLFLOW的测评流程独具匠心。智能体在挑战首个任务时,没有任何外部参考,完全依赖其原始能力。任务完成后,系统会提供一份“执行反馈”,明确指出错误与未达标之处。

获取反馈后,智能体需执行关键操作:将此次经历提炼为一条可复用的经验条目,以文件形式存入其专属技能库。面对后续任务时,它便可检索库中经验,结合新任务要求制定方案。完成后再次获取反馈、更新技能库。这个“执行-反馈-更新-再执行”的闭环,构成了“智能体终身学习协议”。

技能存储格式极为精简。每次更新称为一个“技能补丁”,包含三部分:一段文字说明(总结新经验或修正旧错误)、需新增或修改的文件内容、以及需删除的过时文件。这种设计类似于版本控制系统,确保每次修改可追溯,便于研究人员分析学习轨迹。

技能文件本身遵循严格规范。每项技能存储在以技能命名的文件夹内,其中必须包含一个核心说明文件(SKILL.md),文件开头需注明技能名称与适用场景。说明文件内容应为可直接执行的操作指南,推荐写法是提供清晰的工作流、决策规则及常见错误案例。辅助脚本置于scripts子文件夹,详细参考文档或API说明置于references子文件夹,可复用模板则存放于assets子文件夹。

值得注意的是,技能库的更新完全由智能体自主完成,无需人工干预,也不依赖外部检索。技能的调用是自然发生的:当智能体在执行中读取或调用了技能库文件,系统便会记录此次调用,作为“技能复用率”的统计依据。

三、实验结果里藏着的冷知识:高使用率≠高收益

测试结果揭示了多项耐人寻味的发现。

表现最突出的是Claude Opus 4.6。在无技能库的基准测试中,它完成了166个任务中的104个,成功率62.65%。开启终身学习模式后,完成数升至118个,成功率跃至71.08%,净增8.43个百分点。此外,平均每任务费用从0.665美元降至0.615美元,生成文字量也从平均3000字降至2390字——实现了成本与效率的双重优化。

其他模型表现各异。MiniMax M2.5的成功率从28.31%升至34.94%,提升6.63个百分点。Claude Sonnet 4.5从49.40%升至55.42%,提升6.02个百分点。GPT 5.4从33.13%升至36.75%,提升3.62个百分点。

然而,Kimi K2.5的数据呈现了有趣现象。该模型在终身学习模式下,高达66.87%的任务都调用了技能库,表明其积极使用积累的经验。但任务成功率仅从55.42%微升至56.02%,涨幅仅0.60个百分点。高调用率与低收益增长形成了鲜明对比。

更极端的案例是几个出现性能倒退的模型。GPT 5.3 Codex的成功率从52.41%跌至46.39%,下降6.02个百分点。Qwen-Coder-Next从45.18%跌至44.58%。Qwen3-Coder-480B从24.70%跌至24.10%。MiniMax M2.7从37.35%跌至36.75%。这些模型不仅未能从技能积累中获益,反而表现更差。

研究团队还针对Claude Opus 4.6进行了一项对照实验:禁止其积累技能库,而是将之前所有任务的完整对话历史附在当前任务前作为参考。这种“堆砌原始记忆”的做法效果如何?成功率仅为51.04%,比无任何辅助的原始状态(62.65%)低了11.61个百分点。这证明,将经历转化为结构化的技能,远比简单堆积冗长的历史记录有效。正如厨师的成长依赖于精炼的食谱,而非反复观看每次下厨的全过程录像。

从领域分布看,技能进化的效果存在差异。数据与文档处理类任务从中获益最大,而金融与经济学类任务反而出现了更多负向变化。这表明技能进化的有效性具有任务类型依赖性。

四、为什么有些模型越学越强,有些越学越乱

研究团队深入分析了性能差异背后的原因,归纳出六项关键发现。

最核心的一条是:决定模型能否从技能进化中获益的关键,不在于其“生成”技能的能力,而在于其“修正”错误技能的能力。几乎所有模型都能在任务完成后写出一条技能条目,这并不困难。真正的分水岭在于,当某条技能记录了错误操作逻辑时,模型能否识别并纠正它?

与此紧密相关的第二项发现是:一旦错误技能被写入库中,其危害会沿任务序列向后传播。后续任务会继承这个错误逻辑,如同一个关键步骤出错的食谱,会导致所有照做的菜肴失败。这种错误传播效应,使得早期的错误技能尤为危险。

第三项发现涉及技能库规模的反直觉规律:更小的技能库,往往对应更好的任务表现。在表现最佳的设置中,技能库最终平均只存有一到两项高度概括的技能。反而是那些表现欠佳的模型,技能库里堆积了四五项甚至更多条目,但成功率并未提升。原因在于,强大的模型倾向于将多次任务中反复出现的操作逻辑,提炼成一条核心技能,并在学到新知识后对其进行修订与完善。而较弱的模型则习惯为每次任务单独总结一条新技能,导致技能库日益庞杂,充斥着大量内容重叠却各自为政的条目。

以Qwen系列和部分MiniMax设置为例,其技能数量几乎随任务编号单调递增,近乎每完成一个任务就新增一条。但技能数量的快速膨胀并未带来成功率的提升,反而让智能体在面对庞大库容时陷入“决策过载”,不知该参考哪一条,最终适得其反。

另一方面,Codex系列展示了另一种风格:它倾向于将相邻任务的变体融合进同一条不断演化的核心技能,而非另立新条目,从而保持技能库的精简。但有趣的是,这种精简风格并未转化为与Opus系列相当的任务完成率,说明技能库精简只是必要条件,而非充分条件。

五、一道真实任务的解题全程:智能体怎么学会处理Excel公式的坑

论文附录详细展示了一个真实任务案例,生动阐释了技能进化在实际中如何发生。

任务要求是:在一个Excel工作簿中,Task表单有一批黄色的空白单元格需要填写公式。第一步,要求填写INDEX+MATCH组合查询公式,数据源在Data表单的另一区域。第二步,要求计算六家医院的净患者流指标,并统计各列的最小值、最大值、中位数、均值、第25和第75百分位数。第三步,要求用SUMPRODUCT函数计算加权均值。

智能体初始遵循合理流程:先读取任务说明,然后调用技能库中已有的Excel公式任务技能——该技能提醒它先读取验证脚本,理解验证程序如何检查结果。智能体照做后,发现验证脚本会以`data_only=True`模式打开Excel文件。在此模式下,如果单元格只有公式字符串而没有缓存的计算结果,读取到的值将是空的。

这是一个经典陷阱:Python的openpyxl库可以向Excel单元格写入公式字符串,但本身不会计算公式,因此写入的公式没有配套的缓存值。如果验证程序以上述方式读取,就会得到全部空值,导致任务失败。

智能体识别出问题,开始寻找解决方案。它先尝试调用LibreOffice在后台重新计算工作簿,但发现容器环境中未安装该软件。又尝试使用名为`formulas`的Python库模拟计算,但该库计算出的结果同样无法被openpyxl以`data_only=True`方式读取。

随后,它转向了第三条路径:直接修改Excel文件内部的XML结构。Excel文件本质是一个ZIP压缩包,内含若干XML文件。单元格公式存储在``标签中,缓存值存储在``标签中。如果手动为每个有公式的单元格写入一个``标签,验证程序就能读到值了。

智能体开始实施该方案,但中途出现问题:它分多次修改XML,每次重新打包ZIP文件时,前一次写入的公式字符串被覆盖,最终导致部分单元格的公式消失,只剩缓存值。它诊断出根本原因是“多次XML修改导致公式字段被破坏”,于是果断放弃已修改的工作文件,重新从原始工作簿开始,先计算好所有单元格的Python值,然后在一次XML操作中统一写入所有缓存值。完成后运行验证脚本,167个公式单元格全部既有公式又有缓存值,任务通过。

任务完成后,智能体生成的技能补丁将整套经历提炼成一条清晰的操作指南。核心要点是:若验证方式使用`data_only=True`,则必须通过XML级别操作写入缓存值;所有XML修改必须一次性完成,绝不能分多次;LibreOffice和formulas库均不可靠,切勿依赖。技能中还提供了可直接复用的Python脚本,以及一张常见症状与对应修复方案的对照表。这条技能后来帮助智能体在该系列后续任务中大幅减少了试错次数。

六、这项研究和以往的AI评测有什么本质区别

研究团队在论文附录中通过详细对比表,将SKILLFLOW与几个知名AI评测系统进行了区分。Terminal-Bench和SWE-bench是两个知名的AI任务评测平台,它们完全不考察技能相关维度。SkillsBench是最接近本研究出发点的前人工作,它确实测试了技能对任务的帮助效果,也支持智能体自行生成技能,但它不考察技能的迭代修正、技能的跨任务积累复用、技能是否真正对应有效使用,也没有基于交互轨迹提炼技能。而SKILLFLOW在上述所有维度上都提供了系统性的评测方案。

这种系统性的差异,使得SKILLFLOW能够揭示一些以往评测从未触及的问题,例如:为何有些模型频繁调用技能却无收益?为何技能库膨胀反而会损害表现?为何修正错误技能的能力比生成技能的能力更重要?这些发现对于AI研究者理解当前模型的瓶颈具有直接的参考价值。

归根结底,这项研究表明,当前的AI智能体距离真正意义上的“经验学习”仍有相当距离。并非简单地配上一个可更新的技能库就能解决问题,关键在于其是否具备将失败经历转化为有价值修正的能力,而不仅仅是将经历堆积成越来越厚的档案。

对于希望深入了解此方向的读者,相关代码已在GitHub平台开源,可通过论文编号arXiv:2604.17308找到完整论文与仓库地址。这是一个相当前沿的研究方向,仍有大量问题有待探索:如何设计更好的技能修正激励机制?如何在不同类型任务间实现技能迁移?如何防止错误技能的持续传播?每一个问题背后,都是AI迈向真正自主学习所必须跨越的门槛。

Q&A

Q1:SKILLFLOW基准测试包含多少任务,覆盖哪些领域?

A:SKILLFLOW包含166个可执行任务,划分为20个任务系列。覆盖五大核心领域:金融与经济学、运营与供应链、医疗健康与生命科学、治理与战略,以及数据与文档处理。每个系列包含8到9个任务,这些任务共享同一套底层操作逻辑(DAEF),但具体的业务场景、文件内容和数据格式各不相同,专门用于测试智能体能否从一系列相似任务中抽象出可复用的经验。

Q2:Claude Opus 4.6在SKILLFLOW测试中提升了多少?

A:Claude Opus 4.6是11个被测模型中表现最优的。在没有技能库的基础设置下,其任务成功率为62.65%(完成104/166个任务)。开启终身学习模式、允许其积累和更新技能库之后,成功率提升至71.08%(完成118个任务),净提升8.43个百分点。同时,平均每任务费用从0.665美元降至0.615美元,生成文字量也有所减少,实现了效率的全面提升。

Q3:为什么有些模型技能使用率很高,任务成功率却没有提升?

A:这是SKILLFLOW测试揭示的核心发现之一。以Kimi K2.5为例,其在终身学习模式下有66.87%的任务调用了技能库,但成功率仅微升0.60个百分点,收益甚微。根本原因在于,调用技能与从技能中真正受益是两回事。如果一个模型倾向于为每次任务单独创建新技能,导致技能库快速膨胀、内容重叠,同时又缺乏有效修正错误技能的能力,那么高调用率只会增加认知负荷,而非带来能力提升。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策