Agent开源项目测评:3款效果翻倍Token成本减半
某天,老板让你用 Agent 手工搭建一套自动化流程小工具,你挽起袖子,信心十足地启动。
结果,Agent 连脚本里写错的一行路径都改不进去,怎么调整都无效。你只能放弃尝试,亲手修正。到了后期,Agent 连你的需求也记不住;抓取的信息总停留在半年前的旧闻,完全无法使用。
这里专门整理了三个实用的开源项目,分别针对编辑、记忆、信息获取这三大短板,能让你的 Agent 快速提升智能化水平。
项目一:oh-my-pi 解决编码手抖
目前 Agent 修改代码,绝大多数遵循同一套逻辑:先让 Agent 把待改的旧代码原样复述一遍,作为定位依据,再替换为新代码。
也就是说,Agent 必须将旧代码复述得分毫不差,才能进行修改。可如果文件被其他步骤中途改动,或者代码中存在多处相似片段,Agent 就会彻底混乱。
下面这个项目是一个 AI 编程 Agent,近期在 Coding Agent 圈内表现突出,GitHub 上已突破万星。
项目由多个组件构成,核心是 hashline 架构。前面提到,Agent 必须逐字复述旧代码才能修改。而 hashline 换了个思路——直接不让它复述。
每生成一行代码,Agent 都会为该行挂上一个哈希锚点,相当于这行代码的唯一指纹。后续需要修改该行时,Agent 只需引用该锚点,无需再整段搬移旧代码。修改时,omp 会拿锚点与当前文件重新比对,匹配则执行修改;若匹配失败,说明该行在被修改前已被其他步骤改动,omp 不会在已变样的地方强行打补丁,直接拒绝此次编辑。相当于每次改动前都自带版本校验,从机制上杜绝了改错位、改串行的问题。
光说原理可能缺乏直观感受,直接看实测数据。开发者曾将 omp 接入 16 个模型、180 个任务,测试结果如下:
最显著的是 Grok Code Fast 1,代码修改成功率从 6.7% 直接跃升至 68.3%,提升近十倍。其中有个反直觉的点:越弱、越小的模型,安装 omp 后收益反而越大。此外,由于模型无需再浪费大量 token 去复述旧代码,它也非常省成本。
顺便提一下这个项目的身世:omp 的前身是 Mario Zechner 的极简终端 Agent「Pi」的一个 Fork,此前出圈的个人 AI 助理 OpenClaw,底层用的也是 Pi。
项目链接:
https://github.com/can1357/oh-my-pi
项目二:TencentDB Agent Memory 解决健忘问题
接下来,我们来解决 Agent 的健忘问题。Agent 能记住多少,取决于一个叫上下文窗口的东西。它一次性可容纳的文本量有上限,对话越久,窗口越满。达到上限后,Agent 会直接丢弃最早的内容。你之前说的话,就这样在一轮轮对话中被挤掉。
目前主流的记忆解决方案,大多采用同一套路:将对话切碎后存入向量库,需要时靠相似度进行盲搜。结果往往是搜上来一堆看似相似却无用的对话,真正需要的那条反而沉在底部。还有一个更致命的问题:跨会话的「记不住你是谁」与单会话内的「被一堆废话撑爆」实际上是两码事。在真实任务中,单次会话工具日志的爆炸,可能比跨会话遗忘发生得更频繁。
Tencent DB Agent Memory 的巧妙之处,在于将两个问题分开处理。先看「跨会话场景」,它的解法是分层。这套方案模仿了人类的记忆系统:你不会把每天的每句话都原样背下来,而是慢慢把零碎经历沉淀成对一个人、一件事的稳定印象。
它也把这个过程进行拆分,共拆成四层,从下到上称为 L0 到 L3,每一层只负责一件事。
L0:保存你所说的每句对话,作为档案。L1:从这些大白话中提取真正有用的事实、你的偏好、定下的规矩,单独记忆,作为要点。L2:将零散的要点归类,整合成完整的场景和事件,形成脉络。L3:沉淀为关于你这个人的稳定画像,形成结论。这一路,越往上越精炼,噪音越少。上层把控方向,下层提供证据,各司其职。
再看「单会话场景」,它的解法是上下文卸载加 Mermaid 画布。它会把繁杂的工具日志卸载到磁盘文件中,上下文中只保留一张轻量的 Mermaid 任务画布。这张画布将任务结构折叠成一张可导航的图。画布上每个节点都带编号,需要核对某个细节时,按编号查找即可快速调回磁盘上的原文。
说实话,这个项目里用的 SQLite、向量库、Mermaid、大模型抽取,单独拿出来都不新鲜。它真正的价值在于这套架构的取舍:想清楚了哪些信息该沉到底层当证据,哪些该浮到上层。而且,它采用异构存储,支持全链路溯源。底层的事实、日志存入数据库,顶层的画像、场景是可直接打开的 Markdown 文件。记忆在这里,不再是一个黑盒。
有开发者测试过,将其作为 OpenClaw 的插件接入后,最高节省 61.38% 的 token,任务通过率相对提升 51.52%。在专门测试长期记忆的 PersonaMem 上,准确率从 48% 提升到 76%,相对提升近六成。
项目链接:
https://github.com/TencentCloud/TencentDB-Agent-Memory
项目三:last30days 解决信息滞后问题
如果你想让 Agent 搜索最新网页,它通常会调用内置的网页搜索工具。说白了就是接入搜索引擎,简单粗暴地抓取搜索结果的顶部几条链接。按照这种方式,给你的网页是经过 SEO 排序的,不一定是最新的。真正在 X、Reddit 社区的一手讨论帖,它基本接触不到。
这是开发者 mvanhorn 制作的一款研究类 skill,GitHub 上有 25.5k 星。last30days 做的事情,就是绕开搜索引擎,直接扎进以下平台:Reddit、X、YouTube、HN、Polymarket、GitHub,一次性拉回所有信息。普通搜索聚合的是编辑筛选过的内容,而它搜索的是人。它不按 SEO 排序,而是按真人实打实的反应给每条内容打分:谁的赞多、谁的投票高,哪条帖子就靠前。
此外,它还支持跨平台相互印证。同一件事,如果在 Reddit、HN、X 上都有热度,它就会把这条信息的权重明显提高。不过,要充分发挥功能,需要同时配置 OpenAI 和社区平台两边的 key,才能开启双向交叉验证。只配一个则是单边模式,一个都没有的话就退回纯网页搜索,无法获得真人互动打分。
内附各平台搜索信息的价格和需要准备的工具:
项目链接:
https://github.com/mvanhorn/last30days-skill












