开源项目登顶GitHub，AI编程成本直降98%

2026-06-10阅读 0热度 0

Github

文｜李嘉星

编辑｜周鑫雨

AI开发者在2025年面临两大痛点：模型频繁失忆，API账单持续飙升。有没有办法既强化模型记忆力，又降低Token消耗？

context-mode正是为此设计——一款专为AI编程场景优化的上下文管理MCP插件，直击模型失忆与Token过度消耗两大顽疾。

核心优势

实测数据表明，context-mode可将AI编程成本降低98%。同时，模型连续工作有效时长从30分钟延长至3小时——以往频繁“失忆重启”的AI，现在能稳定支撑3小时高强度开发。

团队背景

开发出这一方案的是一支跨国团队，成员分布在土耳其、法国等4个国家，通过GitHub异步协作成功将项目推至GitHub Hacker News榜首。

Mert Köseoğlu（核心开发者、创始人）：曾任OpenAI技术顾问，拥有10年以上全栈工程与系统架构经验。创业前在Countly、Planhat、Jotform等全球知名数据与SaaS平台担任高级软件工程师，技术功底深厚。

孙逸诚（核心开发者、多平台适配负责人）：团队中的中国成员，目前大二在读。曾入围强基计划（全省数理前18名），独立开发Temporal-RAG引擎，并获知乎全球A2A黑客松银奖。他自评：“代码能力尚可，省钱经验更足。”

产品与业务

图片来源：context-mode

context-mode在极客圈迅速蹿红，核心在于它精准解决了开发者的共同痛点——高昂API费用与模型频繁失忆的双重困境。

随着“龙虾”等全自动AI编程智能体的普及，Vibe Coding门槛显著降低。但效率提升的同时，成本问题突出：Claude、GPT等旗舰模型的Token定价高昂，高级套餐月费常达200美元。更严重的是，模型在任务中反复试错、重复检索，导致大量Token被无效消耗。

实际开发中，大模型常表现得如同“缺乏常识的数据处理器”。孙逸诚分享过一个Kaggle案例：他将300组数据的训练任务交给Claude，Claude为确认进度，不是编写定时脚本，而是每5秒对项目做一次全局检索——这种低效的“死盯”策略，导致高配会员账号的API额度在半小时内消耗90%。

此外，大模型存在“失忆”痼疾。当代码量触及主流IDE的隐形上限（如164K上下文），系统被迫丢弃或压缩历史信息，关键细节瞬间丢失。前一秒顺畅写代码的AI，下一秒便忘记了架构和约束条件。

context-mode的解决方案直截了当：既然大模型处理海量原始数据既昂贵又低效，那就禁止其直接读取原始数据。

孙逸诚用了一个生动比喻：“传统AI编程如同观看马拉松，大模型紧盯每个选手的每一步——自然耗尽上下文。context-mode则将比赛过程置于封闭沙盒，大模型只需获取最终排名结果。”

工作原理方面，首先通过“虚拟沙盒”与精准检索机制，context-mode大幅降低Token消耗。

传统模式下，每次MCP工具调用成本高昂，大量原始数据被直接灌入大模型上下文窗口，Token消耗飙升。context-mode的“虚拟化沙盒”如同在大模型与操作系统间构建了“防火墙”：所有文件和运行记录先存放于本地，仅在需要时精准检索相关内容供模型调用。

数据来源：《智能涌现》测试结果。

据《智能涌现》测试，接入context-mode后，模型读取79.3KB文件时，Token消耗成本降低87.7%。

其次，为解决大模型“失忆”问题，context-mode通过构建“存档点”机制，实时监控每次文件编辑。当对话过长时，主动构建并注入通常小于2KB的“快照”——类似代码编辑中的存档点。官方数据显示，该机制将大模型连续编程有效时长从30分钟提升至3小时。

最后，context-mode强制推行“用代码思考”范式，进一步压缩Token消耗。

“用代码思考”的核心：不让模型逐行阅读文件，而是先让模型编写脚本在本地完成数据分析，再将精炼结果返回给模型。Mert向《智能涌现》指出，许多开发者误将海量数据直接抛给大模型。实际上，对于50个文件的数据统计任务，应让模型先编写统计脚本，由脚本执行后返回结果。

一个脚本可替代十余次昂贵工具调用，并节省百倍上下文。据《智能涌现》测试，接入context-mode后，模型处理单份文件时，Token成本节省达99.98%。

上手门槛方面，context-mode低于Cursor等需重新下载并适应环境的独立开发工具。作为轻量级MCP插件中间件，可直接接入开发者现有工作流。团队提供系列快捷指令，用于查看各平台Token节省情况——用户在聊天框输入指令后，浏览器弹出本地数据统计面板，记录当周API调用次数及context-mode拦截的无效数据读取次数。

△快捷指令列表。图片来源：context-mode

近期，context-mode针对企业研发场景推出“上下文即服务”。企业环境中AI的ROI难以量化，为此团队开发了“Insights”企业服务——获得授权后，插件将程序员使用AI的过程数据（工具调用、错误次数、成本消耗等）发送至Insights服务器。Insights可针对不同角色生成定制报告：安全总监自动获取安全报告，财务团队获得Token消耗明细。目前该服务尚处于定向内测阶段。

创始人思考

大模型的核心能力是代码生成，而非数据处理。

当前许多平台和开发者陷入误区：将50个文件直接加载到上下文，让模型统计函数数量。这既缓慢又浪费算力。正确方法应是用代码思考——让LLM编写统计脚本，脚本完成计数后输出结果。一个脚本可替代十余次工具调用，节省百倍上下文。未来AI编程范式中，这将是所有平台的底层铁律。

无限上下文是伪命题，克制才是AI工具的核心壁垒。

行业内竞相追逐长上下文能力，100K、1M层出不穷，但这可能是陷阱——将数十KB报错日志一股脑丢给AI，只会加速失忆与幻觉。真正解法在于建立极度克制的“状态记忆层”。谁能把传给AI的无效噪音压缩到极致，谁就能帮开发者将连续编程时长从30分钟延长至3小时。

下一代AI编程的瓶颈不在模型智力，而在上下文管理框架的清晰度。

开发者常抱怨AI在同一个Bug上反复跌倒，并非模型变笨，而是它在冗长对话中迷失方向。唯有给AI提供类似单机游戏的存档点，强制按优先级读取记忆，才能为有价值的逻辑推理留出空间。

大厂聚焦“全家桶”，我们打造跨平台“万能插座”。

团队投入大量精力适配Cursor、Claude、Gemini等不同底层逻辑，原因在于真实开发者生态碎片化且快速迭代。开发者不需要被大厂深度绑定的全能Agent，而需要一款轻量、低内存占用、即插即用、能显著降低API成本的中间件。

开源项目登顶GitHub，AI编程成本直降98%

核心优势

团队背景

产品与业务

创始人思考

相关阅读

最新教程

最新资讯