开源项目登顶GitHub,AI编程成本直降98%

2026-06-10阅读 0热度 0
Github

文|李嘉星

编辑|周鑫雨

AI开发者在2025年面临两大痛点:模型频繁失忆,API账单持续飙升。有没有办法既强化模型记忆力,又降低Token消耗?

context-mode正是为此设计——一款专为AI编程场景优化的上下文管理MCP插件,直击模型失忆与Token过度消耗两大顽疾。

核心优势

实测数据表明,context-mode可将AI编程成本降低98%。同时,模型连续工作有效时长从30分钟延长至3小时——以往频繁“失忆重启”的AI,现在能稳定支撑3小时高强度开发。

团队背景

开发出这一方案的是一支跨国团队,成员分布在土耳其、法国等4个国家,通过GitHub异步协作成功将项目推至GitHub Hacker News榜首。

Mert Köseoğlu(核心开发者、创始人):曾任OpenAI技术顾问,拥有10年以上全栈工程与系统架构经验。创业前在Countly、Planhat、Jotform等全球知名数据与SaaS平台担任高级软件工程师,技术功底深厚。

孙逸诚(核心开发者、多平台适配负责人):团队中的中国成员,目前大二在读。曾入围强基计划(全省数理前18名),独立开发Temporal-RAG引擎,并获知乎全球A2A黑客松银奖。他自评:“代码能力尚可,省钱经验更足。”

产品与业务

图片来源:context-mode

context-mode在极客圈迅速蹿红,核心在于它精准解决了开发者的共同痛点——高昂API费用与模型频繁失忆的双重困境

随着“龙虾”等全自动AI编程智能体的普及,Vibe Coding门槛显著降低。但效率提升的同时,成本问题突出:Claude、GPT等旗舰模型的Token定价高昂,高级套餐月费常达200美元。更严重的是,模型在任务中反复试错、重复检索,导致大量Token被无效消耗。

实际开发中,大模型常表现得如同“缺乏常识的数据处理器”。孙逸诚分享过一个Kaggle案例:他将300组数据的训练任务交给Claude,Claude为确认进度,不是编写定时脚本,而是每5秒对项目做一次全局检索——这种低效的“死盯”策略,导致高配会员账号的API额度在半小时内消耗90%。

此外,大模型存在“失忆”痼疾。当代码量触及主流IDE的隐形上限(如164K上下文),系统被迫丢弃或压缩历史信息,关键细节瞬间丢失。前一秒顺畅写代码的AI,下一秒便忘记了架构和约束条件。

context-mode的解决方案直截了当:既然大模型处理海量原始数据既昂贵又低效,那就禁止其直接读取原始数据。

孙逸诚用了一个生动比喻:“传统AI编程如同观看马拉松,大模型紧盯每个选手的每一步——自然耗尽上下文。context-mode则将比赛过程置于封闭沙盒,大模型只需获取最终排名结果。”

工作原理方面,首先通过“虚拟沙盒”与精准检索机制,context-mode大幅降低Token消耗。

传统模式下,每次MCP工具调用成本高昂,大量原始数据被直接灌入大模型上下文窗口,Token消耗飙升。context-mode的“虚拟化沙盒”如同在大模型与操作系统间构建了“防火墙”:所有文件和运行记录先存放于本地,仅在需要时精准检索相关内容供模型调用。

数据来源:《智能涌现》测试结果。

据《智能涌现》测试,接入context-mode后,模型读取79.3KB文件时,Token消耗成本降低87.7%

其次,为解决大模型“失忆”问题,context-mode通过构建“存档点”机制,实时监控每次文件编辑。当对话过长时,主动构建并注入通常小于2KB的“快照”——类似代码编辑中的存档点。官方数据显示,该机制将大模型连续编程有效时长从30分钟提升至3小时

最后,context-mode强制推行“用代码思考”范式,进一步压缩Token消耗。

“用代码思考”的核心:不让模型逐行阅读文件,而是先让模型编写脚本在本地完成数据分析,再将精炼结果返回给模型。Mert向《智能涌现》指出,许多开发者误将海量数据直接抛给大模型。实际上,对于50个文件的数据统计任务,应让模型先编写统计脚本,由脚本执行后返回结果。

一个脚本可替代十余次昂贵工具调用,并节省百倍上下文。据《智能涌现》测试,接入context-mode后,模型处理单份文件时,Token成本节省达99.98%

上手门槛方面,context-mode低于Cursor等需重新下载并适应环境的独立开发工具。作为轻量级MCP插件中间件,可直接接入开发者现有工作流。团队提供系列快捷指令,用于查看各平台Token节省情况——用户在聊天框输入指令后,浏览器弹出本地数据统计面板,记录当周API调用次数及context-mode拦截的无效数据读取次数。

△快捷指令列表。图片来源:context-mode

近期,context-mode针对企业研发场景推出“上下文即服务”。企业环境中AI的ROI难以量化,为此团队开发了“Insights”企业服务——获得授权后,插件将程序员使用AI的过程数据(工具调用、错误次数、成本消耗等)发送至Insights服务器。Insights可针对不同角色生成定制报告:安全总监自动获取安全报告,财务团队获得Token消耗明细。目前该服务尚处于定向内测阶段。

创始人思考

  • 大模型的核心能力是代码生成,而非数据处理。

当前许多平台和开发者陷入误区:将50个文件直接加载到上下文,让模型统计函数数量。这既缓慢又浪费算力。正确方法应是用代码思考——让LLM编写统计脚本,脚本完成计数后输出结果。一个脚本可替代十余次工具调用,节省百倍上下文。未来AI编程范式中,这将是所有平台的底层铁律。

  • 无限上下文是伪命题,克制才是AI工具的核心壁垒。

行业内竞相追逐长上下文能力,100K、1M层出不穷,但这可能是陷阱——将数十KB报错日志一股脑丢给AI,只会加速失忆与幻觉。真正解法在于建立极度克制的“状态记忆层”。谁能把传给AI的无效噪音压缩到极致,谁就能帮开发者将连续编程时长从30分钟延长至3小时。

  • 下一代AI编程的瓶颈不在模型智力,而在上下文管理框架的清晰度。

开发者常抱怨AI在同一个Bug上反复跌倒,并非模型变笨,而是它在冗长对话中迷失方向。唯有给AI提供类似单机游戏的存档点,强制按优先级读取记忆,才能为有价值的逻辑推理留出空间。

  • 大厂聚焦“全家桶”,我们打造跨平台“万能插座”。

团队投入大量精力适配Cursor、Claude、Gemini等不同底层逻辑,原因在于真实开发者生态碎片化且快速迭代。开发者不需要被大厂深度绑定的全能Agent,而需要一款轻量、低内存占用、即插即用、能显著降低API成本的中间件。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策