深大复旦AI助手测评:低内存高能效的行业革新

2026-05-15阅读 0热度 0
AI助手

这项由深圳安泊泰科技与复旦大学联合组建的优势AI智能体实验室(A3 Lab)完成的研究,其成果已于2026年4月以预印本形式发布,论文编号为arXiv:2604.17091v1。

深大与复旦联手打造的AI助手,凭什么用更少的

在与AI助手进行长对话时,你是否遭遇过这样的困境:对话持续越久,AI的回应似乎越偏离核心,甚至遗忘初始指令或重复已完成步骤?这并非错觉,而是当前AI系统普遍面临的“上下文爆炸”问题。随着对话轮次增加,大量中间过程与冗余信息充斥上下文窗口,真正关键的任务指令与核心数据被稀释,导致模型决策质量显著下降。

针对这一瓶颈,深圳安泊泰科技与复旦大学的研究团队提出了名为GenericAgent(简称GA)的全新AI智能体架构。其核心设计哲学可概括为:智能体的效能并非由其记忆的信息总量决定,而取决于其在有限的上下文窗口内,所保留信息的价值密度。团队将这一原则定义为“上下文信息密度最大化”。这类似于整理一个容量固定的背包:装入的物品越精炼、越关键,解决问题的能力就越强;反之,若塞满无关杂物,真正需要的工具反而难以取用。

GA系统通过四层协同设计实现这一目标:一套高度精简的工具集、一个分层管理的记忆系统、一套任务后自动提炼经验的自我进化机制,以及一个主动压缩与清理无用信息的上下文管理层。实验表明,该架构在多项复杂任务测试中,以显著更低的计算资源消耗,超越了包括Claude Code、OpenClaw在内的主流智能体系统。

一、信息过载的陷阱:为何“记忆更多”导致效能更低

理解GA的解决方案,需先厘清现有AI系统在长对话中失效的根本原因。

每个大语言模型都有一个“上下文窗口”,可视为其单次处理的信息总量上限。传统观点认为,窗口越大,模型表现应越好。然而,多项独立研究揭示了相反的现象。

首要问题是“位置偏差”。模型对输入序列中间部分的信息存在天然的关注度衰减,长文本中的关键指令极易被埋没,导致模型实际利用的信息质量下降。

其次,无关信息会产生主动干扰。它们并非被简单忽略,而是作为噪声分散模型的注意力,引发错误的关联与推理。

第三,“有效上下文长度”远低于理论值。一个宣称支持100万token的模型,其能可靠处理并准确响应的信息量可能仅十分之一。超越此“无幻觉”阈值,模型输出将包含大量未经验证的猜测与编造。

上述问题形成恶性循环:对话越长,干扰信息越多,模型有效处理能力越弱,其输出更依赖猜测,用户被迫提供更多解释,致使上下文进一步膨胀。

研究团队指出,破局之道不在于无限扩大容器,而在于精准控制容器内容。他们将设计挑战定义为“完整性”与“简洁性”之间的核心矛盾:完整性要求所有决策依据必须存在于上下文中;简洁性则要求剔除所有冗余。即使拥有无限大的上下文窗口,填入过多无关内容也会稀释注意力,损害决策质量。GA的全部设计旨在解决这对矛盾,确保在每个决策点,上下文中的信息都具有最高价值密度。

二、工具集精简化:以九个基础工具应对复杂任务

主流智能体系统常提供数十甚至上百个工具,看似功能全面,实则引入新的效率瓶颈。Claude Code内置53个工具,OpenClaw有18个工具工厂并可动态加载插件。而GA的工具集,仅有9个。

这是深思熟虑的战略选择,基于两层考量。

从上下文管理角度看,每个工具都附带其描述与使用说明。工具数量越多,这些“说明书”所占用的上下文空间就越大,挤占了用于实际任务推理的资源。同时,庞大的工具库增加了AI每次选择时的认知负荷与出错概率,导致更多的试错与回滚。

从功能覆盖性看,GA的九个工具已涵盖五大核心能力:文件操作(读取、编辑、写入)、代码执行(Python/Bash)、浏览器交互(页面扫描、JavaScript执行)、记忆管理(短期更新、长期提炼)以及用户询问。理论上,仅凭代码执行工具,GA就能通过编写脚本实现任何其他工具的功能。其余八个工具的存在,旨在将高频操作固化为低成本路径,避免AI在常见任务上“重复造轮子”。

实际数据支持了这一设计:在Claude Code等系统中,超过一半的工具调用集中于极少数工具,大量低频工具全程占据上下文却鲜被使用。GA直接裁剪了这条长尾。在五项长程复杂任务测试中,GA实现了100%的任务完成率,其总token消耗仅为Claude Code的35%,模型调用次数从32次降至11次。

三、分级记忆架构:构建高效的知识检索系统

精简工具解决了任务启动前的噪声,但任务执行中产生的历史记录、中间状态仍在不断累积,挤占宝贵的“工作记忆”空间。

GA采用了一套四层分级记忆架构,其运作模式可类比于一个高效的图书馆系统。

第一层是“工作台”,保持极度简洁,仅存放一份当前任务的“记忆目录索引”,指明有哪些类别的知识可用及其存储位置。

第二层是“常用书架”,存放经过多次任务验证的稳定事实与知识。

第三层是“方法库”,保存可复用的标准化操作流程与解决方案。

第四层是“档案库”,存储完整的历史执行记录,供必要时回溯查阅。

该架构的核心是“按需取用”。AI仅在需要时将特定知识从下层库中提取至工作台,而非将所有信息堆叠于眼前。任务结束后,有价值的经验经过提炼,被结构化地存入方法库或常用书架,而非将原始日志全部塞入档案。

实验验证了该设计的优越性。在一个危险品分类任务中,使用仅包含核心决策规则的“精简记忆”(165 token),其任务完成率与注入大量背景描述的“冗余记忆”(288 token)持平,且两者均显著优于注入完整操作规程原文(575 token)或完全不使用记忆的方案。这证明,记忆内容越精炼,信息密度越高,模型决策效率也越高。

四、经验固化:实现任务执行的持续优化

GA的自我进化机制旨在将单次任务经验转化为可复用的技能,避免每次面对相似任务都从零开始探索。

该机制将经验提炼分为三个阶段:原始记录、结构化流程文档、可执行代码脚本。通过一个九轮连续实验(调查GitHub项目的问题修复记录)展示了全过程:首轮为探索阶段,消耗22万token;随后几轮,AI将经验逐步提炼为流程文档,消耗降至3.6万token;从第六轮开始,流程被固化为Python脚本,消耗稳定在约2.3万token,且任务耗时从最初的7分30秒缩短至1分35秒左右。

与首轮相比,最终状态的资源消耗降低了约90%。关键在于,消耗的减少主要源于模型调用次数从32次锐减至5次——这意味着AI无需重复进行耗时的“理解-规划”循环,可直接执行已验证的最优路径。在八类不同网页任务上,GA均表现出显著的收敛趋势,平均节约79%的token消耗,而对比系统OpenClaw则无此收敛现象。

五、主动上下文管理:四重压缩保障长程稳定性

为应对长时间任务中不可避免的信息累积,GA部署了四道主动压缩防线。

1. 工具输出截断:对代码执行、网页抓取等可能返回超长内容的工具,设定输出长度上限,超限部分以摘要形式呈现,防止单次响应撑爆上下文。

2. 历史消息压缩:定期扫描较早的对话历史,将重复的状态快照替换为占位符,并将冗长的推理过程截断,保留核心结论。最近数轮消息免于压缩,确保AI对当前状态有完整认知。

3. 整体预算驱逐:当总上下文长度超出预算时,系统启动更激进的压缩,并按时序从最旧的消息开始删除,直至总量恢复安全水位。被删除的消息仍保存在档案库中。

4. 工作记忆锚点:每次工具调用后,自动在对话中插入一段包含近期关键摘要与任务状态的精简说明。即使原始历史被压缩或驱逐,该锚点也能确保核心任务目标不丢失。

六、网页信息提纯:从海量HTML中萃取核心内容

网页是信息密度问题的典型场景。一个页面的原始HTML可能包含超过90%的导航、广告、脚本等无关代码。GA的网页处理工具内置了内容分析算法:它解析页面DOM结构,计算元素可见性,识别并剔除被覆盖或隐藏的非主体区域,最终仅序列化对用户可见的核心内容。此过程能将典型网页的上下文负载降低一个数量级。在网页任务测试中,GA以更低(平均约三分之一)的token消耗,获得了高于对比系统的任务完成率。

七、极简架构的扩展优势:轻量代码库催生涌现能力

GA系统核心代码约3300行,其简洁性非但不是限制,反而催生了独特优势。

由于其以命令行程序形式运行,任何可执行命令行的环境均可调用。这使得GA能轻松实现“多智能体协作”:主GA实例在遇到可并行子任务时,可直接通过代码执行工具启动多个子GA进程,形成自然的“分发-汇总”工作流。

同样,GA支持“监听模式”,可由外部脚本根据文件变动、日志更新或定时器触发任务,实现全天候自动化运行。

研究团队指出,当系统代码库足够精简(数千行而非数十万行),AI本身有可能理解甚至改进自身架构。这为未来实现“自我迭代”的智能体留下了探索空间。

GA研究揭示了一个反直觉的洞见:在长程复杂任务中,更低的token消耗往往意味着更优的上下文管理与更高的任务完成质量。高消耗可能是系统未能有效过滤信息,迫使模型通过更多试错轮次来弥补决策质量下滑的征兆。GA通过提升上下文信息密度,为构建高效、稳定的长程AI智能体提供了新的工程范式。

Q&A

Q1:GenericAgent的“上下文信息密度最大化”是什么意思?

A:其核心是在AI有限的即时工作内存中,最大化有价值信息的比例。研究表明,盲目增加上下文长度,超过临界点后,冗余信息会干扰模型注意力,降低输出准确性与可靠性。GA通过精简工具集、分级记忆、经验提炼与主动压缩,系统性剔除无关内容,确保模型始终聚焦于当前任务最关键的指令与数据上。

Q2:GenericAgent的自我进化机制具体是怎么工作的?

A:GA在成功完成一项任务后,会对其执行轨迹进行复盘,将其中验证有效的操作步骤提炼为结构化的流程文档,存入“方法库”。当同类任务反复出现时,这些文档可进一步转化为可直接调用的Python脚本。这使得AI在后续遇到相似任务时,无需重新进行探索性推理,可直接执行优化后的路径,从而大幅减少模型调用次数与总体资源消耗。实验显示,经过数轮迭代,任务消耗可降低约90%。

Q3:GenericAgent只有9个工具,为什么不会能力不足?

A:这9个工具覆盖了文件操作、代码执行、浏览器交互、记忆管理与用户沟通五大基础能力域。其设计哲学是“组合优于枚举”:复杂功能可通过基础工具的组合调用实现(例如,用“代码执行”+“文件读取”模拟专用搜索工具)。研究数据表明,在拥有数十个工具的系统里,绝大多数调用集中于少数几个高频工具,大量低频工具徒增上下文负担。GA的精简设计直接消除了这部分开销,使资源集中于核心推理循环。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策