清华与阿里通义智能体长程任务新方案：成本锐降70%权威测评

2026-06-24阅读 0热度 0

智能体

处理需要多轮搜索与推理的复杂任务时，AI智能体常遭遇一个根本性瓶颈：上下文过载。模型要么遗忘关键线索，要么推理链断裂。这不仅是技术挑战，更是阻碍AI实现高级应用的关键。赋予智能体可靠的“长程记忆”，已成为全球研究的前沿课题。

近期，清华大学与阿里巴巴通义实验室的联合团队提出了一种创新解决方案。他们研发的自我记忆策略优化算法（MemPO），使大模型能够主动管理其记忆流。在多目标复杂任务的测试中，该技术显著提升了智能体的任务准确率，同时将计算资源消耗降低了近70%。这是一次典型的效率与性能双重突破。

长程任务中的记忆困境

当前对AI智能体的要求已远超简单指令响应。深度研究、多步数据分析、复杂编程等任务，要求智能体在持续的“思考-行动”循环中维持逻辑一致性。

主流实现方式是，智能体将环境反馈不断追加到历史记录中，作为后续行动的提示。然而，交互轮次增加导致上下文长度线性膨胀，迅速触及模型上下文窗口的上限，并带来高昂的Token成本。这正是阻碍智能体大规模商业部署的核心因素之一。

更深层的问题是，过长的上下文会引发“中间信息丢失”效应——模型在处理超长文本时，容易忽略位于中间位置的关键数据，导致整体性能骤降。

为解决此问题，研究者引入了外部记忆模块，主流方案是结合检索增强生成（RAG）技术构建知识库，按需检索历史信息。但这本质上是一种离线压缩，未能与核心任务目标协同优化。基于文本相似度的检索结果，未必是对决策最有价值的信息。智能体仍处于被动状态，无法主动筛选和组织关键记忆。

为扭转这一被动局面，研究团队重构了交互范式。智能体不再被动接收全部历史，而是通过特殊指令标签，自主提炼和重组关键信息。

在新框架下，智能体每轮交互可输出三类动作：记忆、思考、工具调用。其核心在于，当规划下一步操作时，模型会摒弃早期的冗长上下文，仅将上一轮浓缩后的“记忆块”作为输入。这种将记忆管理内化为智能体核心能力的架构，为攻克长程任务奠定了新的工程基础。

训练模型自主提炼关键记忆

构想虽佳，但如何训练智能体生成高质量的记忆摘要？研究团队转向了强化学习（RL）。然而，直接应用传统算法面临奖励分配的挑战。

以组相对策略优化（GRPO）为例，模型通过对比一批候选轨迹的最终结果来调整策略。只要最终答案正确，整条轨迹上的所有步骤都会获得均等奖励。这种“轨迹级”的全局奖励过于粗糙。在长达十几轮的交互中，即使最终成功，模型也无法识别是哪一轮生成的记忆起到了决定性作用。针对记忆生成的反馈信号极其稀疏，模型难以学会保留最关键的解题线索。

针对这一核心痛点，自我记忆策略优化算法（MemPO）被设计出来。它摒弃了均等奖励机制，为记忆内容的生成单独设计了一套细粒度的评估标准。

从框架图可见，在任意轨迹的特定步骤，上下文被精简为四个部分：记忆、思考、工具调用和工具响应。算法评估性能时，不仅保留传统的轨迹级奖励，还会专门为记忆部分计算一个独立的“记忆奖励”。

最终，在更新模型策略时，属于“记忆”标签内的Token将同时受到轨迹级和记忆级的双重奖励强化；而普通的推理和工具调用Token，则仅依据轨迹级奖励进行优化。这种差异化的信用分配机制，有效引导智能体将最核心的信息沉淀到记忆模块中。

基于概率量化记忆价值

设计独立的记忆奖励合乎逻辑，但随之而来的问题是：如何客观量化一段记忆摘要的质量？

研究人员回归语言模型的概率本质寻找答案。大模型生成任何内容，其底层逻辑都是基于前置上下文计算条件概率。逆向思考：如果一段记忆能显著提升模型生成正确答案的条件概率，则证明这段记忆保留了高度有效的信息，对解决问题至关重要。

MemPO算法正是将这种条件概率提升度作为衡量记忆质量的定量指标。每一轮生成的记忆都会被评估，看它能多大程度提高最终正确答案的生成概率。为消除不同任务固有难度带来的偏差，算法引入了基线偏置项进行校准，确保奖励信号真实反映记忆浓缩信息的能力。

上图清晰展示了差异。采用新算法的模型（蓝色），其记忆样本更多地分布在更高的条件概率区间（横轴右侧）。折线图的趋势进一步验证了设计思路：概率越高的分组，对应的平均任务准确率也越高。这证明，通过概率打分能有效驱动模型生成有助于解题的高质量记忆。

从随交互步骤变化的概率分析来看，在处理包含10个检索目标的复杂任务时，前10步中，新算法对应的平均概率稳步上升。这表明智能体正在有效积累和组织有价值的线索。10步之后概率开始回落，这也符合实际逻辑：常规搜索约10步即可完成，后续搜索往往意味着关键信息极难获取。这一精准的趋势反映了模型记忆组织的真实动态。

长程任务实测：效率与精度双赢

理论需要实践验证。研究团队构建了一个多目标任务测试集，要求智能体在问题中逐步挖掘线索，任务难度随所需查找的目标数量递增。所有对比方法均统一采用Qwen2.5系列的7B参数模型。

结果具有说服力。在精确度指标上，MemPO算法相较于基础模型取得了25.98的F1分数绝对提升，比之前最先进的同类基线方案高出7.1分。即便面对包含10个目标的极限测试（远超训练集难度），智能体表现依然稳健。

更突出的是效率提升。智能体解决单个问题消耗的总Token数，以及单步最高消耗Token数，分别降低了67.58%和73.12%。具体到10目标任务，传统基线方法消耗的Token数量约为MemPO的3倍，单步资源峰值更是高达5倍。这意味着巨大的运营成本节约。

为厘清各技术组件的贡献，研究人员进行了消融实验。

左侧图表显示，引入独立的记忆奖励信号，使模型性能实现了显著爬升。右侧图表揭示了一个反直觉现象：为智能体提供完整的历史上下文，在处理短任务时或许略有助益；可一旦任务周期拉长，保留的交互步骤越多，智能体的性能衰减越快。海量冗余信息不仅无益，反而稀释了模型的注意力，拖累了推理效能。这从侧面强有力地证明，让智能体自主浓缩单步记忆的极简策略，具有显著的先进性和必要性。

当然，当前研究也存在局限。其评价机制受工具调用带来的信息量波动影响，在计算同一组内不同轨迹的相对分数时会产生微小偏差，尽管公式中的偏置项能起到一定缓冲作用。要使该技术在现实业务流中落地，还需在更复杂、开放的场景中进行进一步打磨。

在算力成本日益成为大模型普及阻力的当下，这种“降本增效”的算法突破价值显著。智能体与物理世界或网络环境的交互，是一场充满噪声的“长跑”。将记忆生成、逻辑推理和工具调用深度整合，并依托严密的数学概率作为反馈尺度，智能体正逐步掌握人类“抓住重点、记住关键”的认知能力。这很可能定义了下一代高级智能体架构的核心方向。

清华与阿里通义智能体长程任务新方案：成本锐降70%权威测评

长程任务中的记忆困境

训练模型自主提炼关键记忆

基于概率量化记忆价值

长程任务实测：效率与精度双赢

相关阅读

最新教程

最新资讯