Agent开源项目测评：3款效果翻倍Token成本减半

2026-06-11阅读 0热度 0

开源项目

某天，老板让你用 Agent 手工搭建一套自动化流程小工具，你挽起袖子，信心十足地启动。

结果，Agent 连脚本里写错的一行路径都改不进去，怎么调整都无效。你只能放弃尝试，亲手修正。到了后期，Agent 连你的需求也记不住；抓取的信息总停留在半年前的旧闻，完全无法使用。

这里专门整理了三个实用的开源项目，分别针对编辑、记忆、信息获取这三大短板，能让你的 Agent 快速提升智能化水平。

项目一：oh-my-pi 解决编码手抖

目前 Agent 修改代码，绝大多数遵循同一套逻辑：先让 Agent 把待改的旧代码原样复述一遍，作为定位依据，再替换为新代码。

也就是说，Agent 必须将旧代码复述得分毫不差，才能进行修改。可如果文件被其他步骤中途改动，或者代码中存在多处相似片段，Agent 就会彻底混乱。

下面这个项目是一个 AI 编程 Agent，近期在 Coding Agent 圈内表现突出，GitHub 上已突破万星。

项目由多个组件构成，核心是 hashline 架构。前面提到，Agent 必须逐字复述旧代码才能修改。而 hashline 换了个思路——直接不让它复述。

每生成一行代码，Agent 都会为该行挂上一个哈希锚点，相当于这行代码的唯一指纹。后续需要修改该行时，Agent 只需引用该锚点，无需再整段搬移旧代码。修改时，omp 会拿锚点与当前文件重新比对，匹配则执行修改；若匹配失败，说明该行在被修改前已被其他步骤改动，omp 不会在已变样的地方强行打补丁，直接拒绝此次编辑。相当于每次改动前都自带版本校验，从机制上杜绝了改错位、改串行的问题。

光说原理可能缺乏直观感受，直接看实测数据。开发者曾将 omp 接入 16 个模型、180 个任务，测试结果如下：

最显著的是 Grok Code Fast 1，代码修改成功率从 6.7% 直接跃升至 68.3%，提升近十倍。其中有个反直觉的点：越弱、越小的模型，安装 omp 后收益反而越大。此外，由于模型无需再浪费大量 token 去复述旧代码，它也非常省成本。

顺便提一下这个项目的身世：omp 的前身是 Mario Zechner 的极简终端 Agent「Pi」的一个 Fork，此前出圈的个人 AI 助理 OpenClaw，底层用的也是 Pi。

项目链接：
https://github.com/can1357/oh-my-pi

项目二：TencentDB Agent Memory 解决健忘问题

接下来，我们来解决 Agent 的健忘问题。Agent 能记住多少，取决于一个叫上下文窗口的东西。它一次性可容纳的文本量有上限，对话越久，窗口越满。达到上限后，Agent 会直接丢弃最早的内容。你之前说的话，就这样在一轮轮对话中被挤掉。

目前主流的记忆解决方案，大多采用同一套路：将对话切碎后存入向量库，需要时靠相似度进行盲搜。结果往往是搜上来一堆看似相似却无用的对话，真正需要的那条反而沉在底部。还有一个更致命的问题：跨会话的「记不住你是谁」与单会话内的「被一堆废话撑爆」实际上是两码事。在真实任务中，单次会话工具日志的爆炸，可能比跨会话遗忘发生得更频繁。

Tencent DB Agent Memory 的巧妙之处，在于将两个问题分开处理。先看「跨会话场景」，它的解法是分层。这套方案模仿了人类的记忆系统：你不会把每天的每句话都原样背下来，而是慢慢把零碎经历沉淀成对一个人、一件事的稳定印象。

它也把这个过程进行拆分，共拆成四层，从下到上称为 L0 到 L3，每一层只负责一件事。

L0：保存你所说的每句对话，作为档案。L1：从这些大白话中提取真正有用的事实、你的偏好、定下的规矩，单独记忆，作为要点。L2：将零散的要点归类，整合成完整的场景和事件，形成脉络。L3：沉淀为关于你这个人的稳定画像，形成结论。这一路，越往上越精炼，噪音越少。上层把控方向，下层提供证据，各司其职。

再看「单会话场景」，它的解法是上下文卸载加 Mermaid 画布。它会把繁杂的工具日志卸载到磁盘文件中，上下文中只保留一张轻量的 Mermaid 任务画布。这张画布将任务结构折叠成一张可导航的图。画布上每个节点都带编号，需要核对某个细节时，按编号查找即可快速调回磁盘上的原文。

说实话，这个项目里用的 SQLite、向量库、Mermaid、大模型抽取，单独拿出来都不新鲜。它真正的价值在于这套架构的取舍：想清楚了哪些信息该沉到底层当证据，哪些该浮到上层。而且，它采用异构存储，支持全链路溯源。底层的事实、日志存入数据库，顶层的画像、场景是可直接打开的 Markdown 文件。记忆在这里，不再是一个黑盒。

有开发者测试过，将其作为 OpenClaw 的插件接入后，最高节省 61.38% 的 token，任务通过率相对提升 51.52%。在专门测试长期记忆的 PersonaMem 上，准确率从 48% 提升到 76%，相对提升近六成。

项目链接：
https://github.com/TencentCloud/TencentDB-Agent-Memory

项目三：last30days 解决信息滞后问题

如果你想让 Agent 搜索最新网页，它通常会调用内置的网页搜索工具。说白了就是接入搜索引擎，简单粗暴地抓取搜索结果的顶部几条链接。按照这种方式，给你的网页是经过 SEO 排序的，不一定是最新的。真正在 X、Reddit 社区的一手讨论帖，它基本接触不到。

这是开发者 mvanhorn 制作的一款研究类 skill，GitHub 上有 25.5k 星。last30days 做的事情，就是绕开搜索引擎，直接扎进以下平台：Reddit、X、YouTube、HN、Polymarket、GitHub，一次性拉回所有信息。普通搜索聚合的是编辑筛选过的内容，而它搜索的是人。它不按 SEO 排序，而是按真人实打实的反应给每条内容打分：谁的赞多、谁的投票高，哪条帖子就靠前。

此外，它还支持跨平台相互印证。同一件事，如果在 Reddit、HN、X 上都有热度，它就会把这条信息的权重明显提高。不过，要充分发挥功能，需要同时配置 OpenAI 和社区平台两边的 key，才能开启双向交叉验证。只配一个则是单边模式，一个都没有的话就退回纯网页搜索，无法获得真人互动打分。

内附各平台搜索信息的价格和需要准备的工具：

项目链接：
https://github.com/mvanhorn/last30days-skill

Agent开源项目测评：3款效果翻倍Token成本减半

项目一：oh-my-pi 解决编码手抖

项目二：TencentDB Agent Memory 解决健忘问题

项目三：last30days 解决信息滞后问题

相关阅读

最新教程

最新资讯