深大复旦AI助手测评：低内存高能效的行业革新

2026-05-15阅读 0热度 0

AI助手

这项由深圳安泊泰科技与复旦大学联合组建的优势AI智能体实验室（A3 Lab）完成的研究，其成果已于2026年4月以预印本形式发布，论文编号为arXiv:2604.17091v1。

在与AI助手进行长对话时，你是否遭遇过这样的困境：对话持续越久，AI的回应似乎越偏离核心，甚至遗忘初始指令或重复已完成步骤？这并非错觉，而是当前AI系统普遍面临的“上下文爆炸”问题。随着对话轮次增加，大量中间过程与冗余信息充斥上下文窗口，真正关键的任务指令与核心数据被稀释，导致模型决策质量显著下降。

针对这一瓶颈，深圳安泊泰科技与复旦大学的研究团队提出了名为GenericAgent（简称GA）的全新AI智能体架构。其核心设计哲学可概括为：智能体的效能并非由其记忆的信息总量决定，而取决于其在有限的上下文窗口内，所保留信息的价值密度。团队将这一原则定义为“上下文信息密度最大化”。这类似于整理一个容量固定的背包：装入的物品越精炼、越关键，解决问题的能力就越强；反之，若塞满无关杂物，真正需要的工具反而难以取用。

GA系统通过四层协同设计实现这一目标：一套高度精简的工具集、一个分层管理的记忆系统、一套任务后自动提炼经验的自我进化机制，以及一个主动压缩与清理无用信息的上下文管理层。实验表明，该架构在多项复杂任务测试中，以显著更低的计算资源消耗，超越了包括Claude Code、OpenClaw在内的主流智能体系统。

一、信息过载的陷阱：为何“记忆更多”导致效能更低

理解GA的解决方案，需先厘清现有AI系统在长对话中失效的根本原因。

每个大语言模型都有一个“上下文窗口”，可视为其单次处理的信息总量上限。传统观点认为，窗口越大，模型表现应越好。然而，多项独立研究揭示了相反的现象。

首要问题是“位置偏差”。模型对输入序列中间部分的信息存在天然的关注度衰减，长文本中的关键指令极易被埋没，导致模型实际利用的信息质量下降。

其次，无关信息会产生主动干扰。它们并非被简单忽略，而是作为噪声分散模型的注意力，引发错误的关联与推理。

第三，“有效上下文长度”远低于理论值。一个宣称支持100万token的模型，其能可靠处理并准确响应的信息量可能仅十分之一。超越此“无幻觉”阈值，模型输出将包含大量未经验证的猜测与编造。

上述问题形成恶性循环：对话越长，干扰信息越多，模型有效处理能力越弱，其输出更依赖猜测，用户被迫提供更多解释，致使上下文进一步膨胀。

研究团队指出，破局之道不在于无限扩大容器，而在于精准控制容器内容。他们将设计挑战定义为“完整性”与“简洁性”之间的核心矛盾：完整性要求所有决策依据必须存在于上下文中；简洁性则要求剔除所有冗余。即使拥有无限大的上下文窗口，填入过多无关内容也会稀释注意力，损害决策质量。GA的全部设计旨在解决这对矛盾，确保在每个决策点，上下文中的信息都具有最高价值密度。

二、工具集精简化：以九个基础工具应对复杂任务

主流智能体系统常提供数十甚至上百个工具，看似功能全面，实则引入新的效率瓶颈。Claude Code内置53个工具，OpenClaw有18个工具工厂并可动态加载插件。而GA的工具集，仅有9个。

这是深思熟虑的战略选择，基于两层考量。

从上下文管理角度看，每个工具都附带其描述与使用说明。工具数量越多，这些“说明书”所占用的上下文空间就越大，挤占了用于实际任务推理的资源。同时，庞大的工具库增加了AI每次选择时的认知负荷与出错概率，导致更多的试错与回滚。

从功能覆盖性看，GA的九个工具已涵盖五大核心能力：文件操作（读取、编辑、写入）、代码执行（Python/Bash）、浏览器交互（页面扫描、JavaScript执行）、记忆管理（短期更新、长期提炼）以及用户询问。理论上，仅凭代码执行工具，GA就能通过编写脚本实现任何其他工具的功能。其余八个工具的存在，旨在将高频操作固化为低成本路径，避免AI在常见任务上“重复造轮子”。

实际数据支持了这一设计：在Claude Code等系统中，超过一半的工具调用集中于极少数工具，大量低频工具全程占据上下文却鲜被使用。GA直接裁剪了这条长尾。在五项长程复杂任务测试中，GA实现了100%的任务完成率，其总token消耗仅为Claude Code的35%，模型调用次数从32次降至11次。

三、分级记忆架构：构建高效的知识检索系统

精简工具解决了任务启动前的噪声，但任务执行中产生的历史记录、中间状态仍在不断累积，挤占宝贵的“工作记忆”空间。

GA采用了一套四层分级记忆架构，其运作模式可类比于一个高效的图书馆系统。

第一层是“工作台”，保持极度简洁，仅存放一份当前任务的“记忆目录索引”，指明有哪些类别的知识可用及其存储位置。

第二层是“常用书架”，存放经过多次任务验证的稳定事实与知识。

第三层是“方法库”，保存可复用的标准化操作流程与解决方案。

第四层是“档案库”，存储完整的历史执行记录，供必要时回溯查阅。

该架构的核心是“按需取用”。AI仅在需要时将特定知识从下层库中提取至工作台，而非将所有信息堆叠于眼前。任务结束后，有价值的经验经过提炼，被结构化地存入方法库或常用书架，而非将原始日志全部塞入档案。

实验验证了该设计的优越性。在一个危险品分类任务中，使用仅包含核心决策规则的“精简记忆”（165 token），其任务完成率与注入大量背景描述的“冗余记忆”（288 token）持平，且两者均显著优于注入完整操作规程原文（575 token）或完全不使用记忆的方案。这证明，记忆内容越精炼，信息密度越高，模型决策效率也越高。

四、经验固化：实现任务执行的持续优化

GA的自我进化机制旨在将单次任务经验转化为可复用的技能，避免每次面对相似任务都从零开始探索。

该机制将经验提炼分为三个阶段：原始记录、结构化流程文档、可执行代码脚本。通过一个九轮连续实验（调查GitHub项目的问题修复记录）展示了全过程：首轮为探索阶段，消耗22万token；随后几轮，AI将经验逐步提炼为流程文档，消耗降至3.6万token；从第六轮开始，流程被固化为Python脚本，消耗稳定在约2.3万token，且任务耗时从最初的7分30秒缩短至1分35秒左右。

与首轮相比，最终状态的资源消耗降低了约90%。关键在于，消耗的减少主要源于模型调用次数从32次锐减至5次——这意味着AI无需重复进行耗时的“理解-规划”循环，可直接执行已验证的最优路径。在八类不同网页任务上，GA均表现出显著的收敛趋势，平均节约79%的token消耗，而对比系统OpenClaw则无此收敛现象。

五、主动上下文管理：四重压缩保障长程稳定性

为应对长时间任务中不可避免的信息累积，GA部署了四道主动压缩防线。

1. 工具输出截断：对代码执行、网页抓取等可能返回超长内容的工具，设定输出长度上限，超限部分以摘要形式呈现，防止单次响应撑爆上下文。

2. 历史消息压缩：定期扫描较早的对话历史，将重复的状态快照替换为占位符，并将冗长的推理过程截断，保留核心结论。最近数轮消息免于压缩，确保AI对当前状态有完整认知。

3. 整体预算驱逐：当总上下文长度超出预算时，系统启动更激进的压缩，并按时序从最旧的消息开始删除，直至总量恢复安全水位。被删除的消息仍保存在档案库中。

4. 工作记忆锚点：每次工具调用后，自动在对话中插入一段包含近期关键摘要与任务状态的精简说明。即使原始历史被压缩或驱逐，该锚点也能确保核心任务目标不丢失。

六、网页信息提纯：从海量HTML中萃取核心内容

网页是信息密度问题的典型场景。一个页面的原始HTML可能包含超过90%的导航、广告、脚本等无关代码。GA的网页处理工具内置了内容分析算法：它解析页面DOM结构，计算元素可见性，识别并剔除被覆盖或隐藏的非主体区域，最终仅序列化对用户可见的核心内容。此过程能将典型网页的上下文负载降低一个数量级。在网页任务测试中，GA以更低（平均约三分之一）的token消耗，获得了高于对比系统的任务完成率。

七、极简架构的扩展优势：轻量代码库催生涌现能力

GA系统核心代码约3300行，其简洁性非但不是限制，反而催生了独特优势。

由于其以命令行程序形式运行，任何可执行命令行的环境均可调用。这使得GA能轻松实现“多智能体协作”：主GA实例在遇到可并行子任务时，可直接通过代码执行工具启动多个子GA进程，形成自然的“分发-汇总”工作流。

同样，GA支持“监听模式”，可由外部脚本根据文件变动、日志更新或定时器触发任务，实现全天候自动化运行。

研究团队指出，当系统代码库足够精简（数千行而非数十万行），AI本身有可能理解甚至改进自身架构。这为未来实现“自我迭代”的智能体留下了探索空间。

GA研究揭示了一个反直觉的洞见：在长程复杂任务中，更低的token消耗往往意味着更优的上下文管理与更高的任务完成质量。高消耗可能是系统未能有效过滤信息，迫使模型通过更多试错轮次来弥补决策质量下滑的征兆。GA通过提升上下文信息密度，为构建高效、稳定的长程AI智能体提供了新的工程范式。

Q&A

Q1：GenericAgent的“上下文信息密度最大化”是什么意思？

A：其核心是在AI有限的即时工作内存中，最大化有价值信息的比例。研究表明，盲目增加上下文长度，超过临界点后，冗余信息会干扰模型注意力，降低输出准确性与可靠性。GA通过精简工具集、分级记忆、经验提炼与主动压缩，系统性剔除无关内容，确保模型始终聚焦于当前任务最关键的指令与数据上。

Q2：GenericAgent的自我进化机制具体是怎么工作的？

A：GA在成功完成一项任务后，会对其执行轨迹进行复盘，将其中验证有效的操作步骤提炼为结构化的流程文档，存入“方法库”。当同类任务反复出现时，这些文档可进一步转化为可直接调用的Python脚本。这使得AI在后续遇到相似任务时，无需重新进行探索性推理，可直接执行优化后的路径，从而大幅减少模型调用次数与总体资源消耗。实验显示，经过数轮迭代，任务消耗可降低约90%。

Q3：GenericAgent只有9个工具，为什么不会能力不足？

A：这9个工具覆盖了文件操作、代码执行、浏览器交互、记忆管理与用户沟通五大基础能力域。其设计哲学是“组合优于枚举”：复杂功能可通过基础工具的组合调用实现（例如，用“代码执行”+“文件读取”模拟专用搜索工具）。研究数据表明，在拥有数十个工具的系统里，绝大多数调用集中于少数几个高频工具，大量低频工具徒增上下文负担。GA的精简设计直接消除了这部分开销，使资源集中于核心推理循环。