RS-Claw工具测评：对比RAG实现86%的token压缩率

2026-05-16阅读 0热度 0

claw

让AI分析一张卫星影像，这个任务远比你想象的复杂。它可能需要调用QGIS、GDAL、Google Earth Engine等上百个专业工具。核心挑战在于：是将所有工具的详细说明一次性塞给AI，还是只提供一部分？前者会迅速耗尽宝贵的上下文窗口，导致模型“大脑过载”；后者则可能让AI因找不到关键工具而陷入死胡同。

中南大学近期发表的一篇论文提出了RS-Claw框架，巧妙地解决了这一困境。其核心思想是：赋予AI主动探索的能力，而非被动接收一份冗长的静态清单。实验数据令人印象深刻：上下文token消耗最高被压缩了86%，同时任务准确率全面超越了主流的Flat和RAG基线方法。

现有方案的瓶颈与硬伤

在深入RS-Claw之前，有必要剖析当前两种主流方案为何在复杂任务中“卡脖子”。

方案一：全量注册 (Flat)

这是最直观的方法：将所有工具的API文档和功能描述全部写入系统提示词。看似给予了AI最大的选择自由，实则带来两大问题。

首先，海量的工具说明会挤占绝大部分上下文窗口。这严重压缩了AI进行多步推理和存储中间状态的“思考空间”，在处理长链条的遥感分析任务时，模型可能尚未完成规划，上下文就已耗尽。

其次，在遥感等垂直领域，大量工具功能相近（例如不同植被指数的计算工具），其描述语义高度相似。当数百条相似描述混杂在一起时，AI的注意力极易分散，导致工具选择错误，进而引发后续步骤的连锁失误。

方案二：检索增强生成 (RAG)

为节省上下文，RAG方案在任务启动时，通过外部检索器根据问题语义筛选出最相关的N个工具，再提交给AI。

这虽然解决了“一次性加载”的问题，却存在一个致命缺陷：检索是静态且一次性的。遥感分析通常是多步骤的，第一步可能用到A工具，而第三步则需要完全不同的B工具。在任务开始时，几乎无法准确预测后续步骤的工具需求。结果就是，那些在后期才关键的“隐藏工具”，很可能在初始检索阶段就被遗漏，导致任务无法完成。

RS-Claw：基于主动探索的破局之道

RS-Claw的解决方案可以概括为八个字：三层技能树，信息渐进披露。这相当于为AI提供了一本可动态展开的“工具百科全书目录”，而非一次性交付整部巨著。

第一层：技能摘要层

首先，将上百个工具按核心功能聚合，形成几个高级技能类别（论文中分为五类：指数计算、反演、感知、分析、统计）。在这一层，AI看到的不是具体工具，而是每个类别的简短功能概述，例如“本类工具主要用于地表温度反演”。

这一步的token成本极低，但意义重大——它为AI绘制了一张全局“认知地图”，使其能够快速定位解决问题的大致方向。

第二层：工具目录层

当AI根据任务判断需要进入某个特定技能分支（如“反演”）后，才会“展开”该分支。此时，该分支下所有工具的简要描述（包括功能边界和输入输出格式，不含复杂参数细节）才会被加载到上下文中。

这使得AI能在一个小而精的候选池中进行精确比对和选择，有效避免了在数百个工具中大海捞针所导致的“注意力涣散”。

第三层：工具文档层

只有当AI最终决定调用某个具体工具时，该工具的完整API签名、参数规格等最详细（也最占空间）的信息才会被加载。

换言之，最“重”的信息只在被需要的最后一刻呈现。整个机制将“工具探索”内化为AI推理决策流程的一个有机组成部分，工具集合随着推理进程动态扩展，而非静态加载。

如图所示，该机制将“工具探索”转化为AI推理决策的内生动作，工具集合随推理进程动态扩展，而非初始静态加载。

实验结果：效率与精度的双重提升

理论设计是否经得起检验？论文通过严谨的实验给出了肯定答案。

实验设计：将探索建模为决策过程

研究团队采用POMDP（部分可观测马尔可夫决策过程）对推理流程进行建模，清晰对比了三种策略：

Flat方案：初始上下文包含全量工具描述，可调用工具集合固定为全集。
RAG方案：初始上下文为外部检索器返回的子集，可调用集合由外部程序决定，AI无法干预。
RS-Claw（主动探索）：初始上下文仅包含技能摘要。AI的动作空间中新增了两类“探索动作”：skill(s)（展开某技能分支的工具目录）和doc(t)（加载某工具的完整文档）。关键在于，只有执行doc(t)后，工具t才被纳入可调用集合。

本质区别在于：前两种方案中，AI可用的工具集与其推理过程是解耦的、被动的；而在RS-Claw中，可调用工具集随着AI的主动探索而动态演化，工具发现本身成为了推理策略的一部分。

准确率全面领先

在Earth-Bench基准（包含234道遥感分析题）上的测试表明，RS-Claw在三个不同规模的模型（GPT-5、DeepSeek-V3.1、Qwen3-32b）和两种评测模式（自主规划AP / 指令执行IF）下，准确率均全面超越Flat和RAG。

一个关键发现是：模型能力越弱，RS-Claw带来的提升越显著。在Qwen3-32b上，RS-Claw在AP模式下的准确率比Flat高出12.45个百分点；而在更强的GPT-5上，优势缩小至3个百分点。

这说明渐进披露的核心价值在于：有效缓解了上下文压力对较弱模型推理能力的损害。

而RAG方案在所有配置下均落后于RS-Claw，原因如前所述：单次静态检索无法适应多步任务中动态变化的工具需求。

Token压缩率高达86%

效率提升更为显著。在Qwen3-32b AP模式下，RS-Claw相比Flat方案，将每道题的输入token从502,119压缩至70,759，压缩率约86%；每轮交互的token也从30,612降至5,951，降幅约81%。

这不仅大幅降低了API调用成本，更重要的是，它极大地释放了上下文窗口，为AI存储中间状态、执行复杂多步推理提供了充足的“工作内存”。

深度分析：设计有效性的根源

为验证RS-Claw每个设计环节的必要性，论文进行了细致的消融实验。

消融实验一：破坏语义聚合 (Random)

保留三层结构，但将工具随机打散分配到五个技能分支中（破坏按功能聚合的语义先验）。结果如何？准确率比完整的RS-Claw低了9.87个百分点，而token消耗反而增加了43%。这表明，失去了有效的语义导航，AI不得不进行大量盲目的探索，浪费了交互轮次和计算资源。

消融实验二：删除技能摘要层 (2layers)

直接删除第一层，只保留工具目录和文档层。这相当于将所有工具名称直接写入系统提示词，再按需加载详细文档。结果出现了一个反直觉的现象：这种变体的“工具发现率”反而比RS-Claw更高，但最终的任务准确率却更低。

这是一个关键的反直觉结论：工具找得更全，最终结果却更差。

原因在于，虽然暴露所有工具名提升了可见性，但对于Qwen3-32b这类对上下文长度敏感的模型，大量工具名本身就已构成上下文压力，压缩了其有效的推理空间。这导致多步规划被截断、中间结果混乱，最终损害了任务完成的准确性。这表明，技能摘要层是控制上下文规模、保护模型核心推理能力的关键设计，不可或缺。

扩展性测试：应对工具库膨胀

真正的工程挑战在于工具库的持续增长。RS-Claw能否应对？

同域工具扩展测试：从完成任务必需的最小工具集开始，每次增加20个功能相近的冗余工具，直至扩展到104个全量工具。

Flat方案：准确率持续下降，token消耗近乎线性增长，最终涨幅超过1100%。
RS-Claw：准确率基本保持稳定，token消耗仅缓慢增长。

工具最少时（零冗余），Flat 略胜 RS-Claw。这说明 RS-Claw 的优势并非无条件——它源于工具规模扩张带来的上下文压力。当工具数量极少时，这种压力不存在，Flat 方案的“直接可见”优势反而更明显。

跨域工具注入测试：向遥感工具库中混入大量无关的通用API（如认证、日历、金融等），使工具总数从104激增至234。

两种方案的准确率都没有剧烈下降（因为跨域工具语义差异大，模型容易过滤）。
但token开销差异巨大：Flat方案的每轮token随工具总数线性增长；而RS-Claw的消耗几乎保持不变。

RS-Claw 的按需加载机制确保了：无关工具的描述永远不会进入上下文。因此，无论工具库如何扩张，实际消耗几乎不受影响。这是面向真实世界开放工具库场景的核心工程价值。

核心启示：重构工具的组织与呈现架构

在优化AI Agent时，业界通常聚焦于Prompt工程或模型微调。RS-Claw这篇论文提供了一个极具启发性的新视角：从工具端入手，重构其组织与呈现架构。

它将“工具获取”从一种被动的、静态的资源接收，转变为AI主动的、按需的探索过程。最关键的是，这套机制无需修改底层大模型，是一种“即插即用”的工程方案。

这套“层级化技能树+渐进式披露”的设计范式，其价值远超遥感领域。任何面临大规模、专业化工具库的垂直场景——无论是医疗诊断、法律分析、金融建模还是科学计算——都可以从中汲取灵感。核心思路是：用层级结构管理工具信息，让AI能够按需、渐进地加载，而非一次性全部注入。工具库规模越大，领域越专业，这种设计的优势就越发凸显。

论文链接：RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents (https://arxiv.org/pdf/2605.13391)