SLIM框架评测:大模型智能体外部技能动态管理
数据方面,SLIM在整体任务表现上平均优于现有最强基线7.1个百分点。以家庭环境模拟任务ALFWorld为例——该任务步骤繁杂、需精细操作——SLIM凭借精简高效的外部技能管理机制,实现了87.5%的成功率,而强基线方法SkillRL仅为75.0%。这说明“少即是多”:精炼的技能库反而带来更强的实战效果。在偏向信息检索与推理的SearchQA任务上,SLIM同样展现出强大竞争力,实验进一步证实模型能将部分搜索策略内化为自身能力。
从行业视角看,SLIM的核心创新在于:它将外部技能库从一个静态的辅助工具箱,升级为与策略协同优化的训练对象。它不再沿袭“往工具箱里塞满螺丝刀”的老路,而是明确回答了根本问题——哪些能力需要内嵌到模型参数中,哪些应保留在外部、随需调用。更关键的是,SLIM让智能体学会在动态环境下自主判断“何时该寻求外部支援”。
这种动态能力管理范式,将智能体的成长路径从“固定配置”推向“持续演化”。它为具身智能与大规模Agent应用的产业化落地,打下了最扎实的地基——毕竟,最好的技能从来不是“囤”出来的,而是“养”出来的。