LLM Agent性能提升：步骤级示范检索与决策对齐方法

2026-06-22阅读 0热度 0

ai 人工智能

基于大语言模型的智能体（LLM Agent）现已广泛应用于网页导航、在线购物等场景，这主要得益于LLM强大的知识储备与文本理解能力——借助上下文示例即可快速泛化，无需微调。然而，多数研究聚焦于“构建Agent”，对如何选取并有效利用这些上下文示例来最大化性能却鲜有深入探讨。

近期提出的轨迹级检索方法将整条专家轨迹作为示例提供给Agent，在顺序决策任务上取得了一定进展。但检索到的示例往往缺少任务专属的状态转换细节，且过长的输入会引入大量无关上下文，形成噪声干扰。这就好比让新手观摩一整局围棋高手的棋谱，却没有指出当前局势下最关键的那几步棋——信息过载反而让人抓不住重点。

为解决这一痛点，我们提出新框架TRAD（Thought Retrieval and Aligned Decision）。该框架包含两大核心环节：第一步“思考检索”（Thought Retrieval），以“思考”（thought）为单位匹配示范步骤，而非整条轨迹，从而筛选出更具针对性的示范，并显著降低输入中的噪声。第二步“对齐决策”（Aligned Decision），将检索到的示范步骤的前后相邻步骤也一并纳入——即便检索到的思考本身不够完美，也能通过上下文补全信息，在“更多上下文”与“更少噪声”之间取得平衡。该方法对网页导航、在线购物等需顺序决策的任务尤为有效。

图1：TRAD Agent在ALFWorld环境中的整体架构。TRAD首先对专家轨迹进行预处理，为每个步骤标注高质量的思考。推理时，TRAD执行思考检索，利用轨迹级检索的示范作为查询和键值，实现更精准的步骤级示范匹配。给定检索到的步骤后，TRAD通过对齐决策模块补充其时间邻近步骤及对应位置信息（见图2）。最终依据增强后的示范生成下一步动作。

图2：对齐决策方法的示例，其中? = ? = 1，第?个检索到的步骤在其轨迹中位于时间??。对齐决策包含三个子过程：1）时间扩展：为每个检索到的步骤收集最多?个前驱步骤和?个后继步骤，并将每个步骤转换为从??−?到??+?的长度为?+?+1的序列；2）相对顺序标记：对于示范步骤序列中的每个步骤，标记其相对于该序列中检索步骤的相对位置，如前一步骤（??−1）标记为[Step -1]，后一步骤（??+1）标记为[Step 1]；3）历史对齐：针对当前情节，使用?+?个前驱步骤（可选含思考）补充当前观察，以丰富信息并与示范对齐。

在ALFWorld和Mind2Web两个标准测试集上，TRAD不仅全面超越当前最先进模型，还有效降低了噪声干扰，提升了泛化能力。值得注意的是，该方法已在一家全球商业保险公司落地，显著提高了机器人流程自动化的成功率。从实验到生产，这一进展扎实可靠。

ALFWorld与Mind2Web评测结果

比较Synapse基于任务元数据的轨迹级检索与TRAD基于思考的步骤级检索。 (a) Synapse的轨迹级检索仅依据任务指令中的“搜索”关键词，检索到的轨迹完全无关。然而，通过使用这些无关轨迹生成思考，思考检索找到了与婴儿（幼儿）及导航相关的更相关的步骤级示范。(b) Synapse的轨迹级检索检索到的看似合理的示例并未利用任务元数据在文本框中输入。尽管思考不完美，思考检索仍找到了更相关的示范，且TRAD学会了输入“纽约”。

LLM Agent性能提升：步骤级示范检索与决策对齐方法

相关阅读

最新教程

最新资讯