Anthropic内部数据曝光:80%代码由AI编写,开发者必看
Anthropic 首次披露内部数据:超 80% 的代码已由 AI 生成
Anthropic 近期发布了一篇题为《When AI builds itself》的报告。这不是泛泛的趋势预测,而是基于真实生产数据的深度复盘,揭示了一个核心趋势:AI 正在加速自我构建,其迭代速度远超行业预期。
先梳理两个关键背景:
最令人震撼的数据是:截至 2026 年 5 月,Anthropic 合并至主代码库的变更中,超过 80% 由 Claude 编写。这不是实验性演示,而是真实生产环境的统计结果。换言之,AI 驱动的递归式自我改进已悄然成为现实。
什么是递归自我改进?简而言之:AI 系统自行设计并构建下一代 AI 系统。并非人类编写代码来增强 AI,而是 AI 自主编写代码实现自我进化。一旦这个闭环形成,进步速度将不再受限于人类工程师的生产力,而是完全由算力和算法效率驱动。
Anthropic 在文章中清晰勾勒了演进时间线:
- 2021–2023:人类编写代码,AI 未参与
- 2023–2025:人类借助聊天机器人辅助编码
- 2025–2026:AI 独立完成完整文件的编写与编辑
- 当前阶段:AI 自主运行代码并委派任务给其他 AI 系统
- 20XX:AI 构建并训练自身的下一代模型
我们正处于第四阶段。第五阶段尚在途中,但趋势已清晰可辨。
AI 能力增速持续攀升
从外部基准测试的演进轨迹来看,加速态势显著:
- AI 独立完成任务的时间跨度,从每 7 个月翻一番,缩短至每 4 个月翻一番
- 2024 年 3 月,Claude 可完成 4 分钟的任务;2025 年 3 月,提升至 1.5 小时;2026 年 3 月,已跃升至 12 小时
- SWE-bench(真实缺陷修复基准):两年内从个位数得分快速趋向饱和
- CORE-Bench(论文复现基准):2024 年成功率仅 20%,15 个月后同样达到饱和
若此趋势延续,持续数天的任务将在今年内纳入能力范围,数周级别的任务在 2027 年也有望攻克。
Anthropic 内部的真实变革
公开基准仅能反映 AI 的能力边界,却无法揭示其对 AI 开发本身的深层影响。而这正是文章的核心价值所在。
若仅需把握最关键的变革脉络,下图可帮助快速建立直观认知。
此图对应后文的核心判断:Anthropic 的变化并非单一维度的突破,而是代码来源、工程效率、研究速度与质量审查等多个维度的同步重构。
工程端:效能提升 8 倍
2021 至 2024 年,每位工程师每日合并的代码量保持稳定。但 2025 年 Claude 开始自主运行代码后,曲线显著上扬。到 2026 年模型能够长时间自主工作时,加速趋势更为陡峭。2026 年 Q2,典型工程师每日合并的代码量已达到 2024 年的 8 倍。
当然,8 倍这一数字可能高估了实际生产力——代码行数并非完美指标。但它足以表明一个事实:加速度真实存在。Anthropic 并不以代码行数考核工程师,产出的提升完全源自 AI 编写了更多代码。
举例说明:2026 年 4 月,Claude 提交了 800 余项修复,将某类 API 错误的发生率降低了上千倍。负责监督的工程师表示,若由人类完成此项工作,至少需要四年。
研究端:从辅助工具到竞争伙伴
在实验优化基准测试中,2025 年 5 月 Claude Opus 4 实现了约 3 倍加速;到 2026 年 4 月,Claude Mythos Preview 已飙升至 52 倍。作为参照,资深人类研究员实现 4 倍加速通常需要 4 至 8 小时。
更值得关注的是研究判断力的测试结果。当模型被呈现一段“即将偏离方向”的研究会话并询问下一步行动时——2025 年 11 月,最佳模型仅 51% 的情况下优于人类选择;而到 2026 年 4 月,这一比例已上升至 64%。文章原话指出:「研究品味」可能只是 AI 系统暂时表现不佳的又一项能力,随后它便会迅速精通。
代码质量:年内将超越人类水平
2025 年底,Claude 编写的代码质量仍略逊于 Anthropic 的人类工程师;如今已基本持平。文章预测:年内将严格超越人类水平。
目前,Anthropic 的每次代码变更均需经过自动化的 Claude 审查。回溯分析显示,这套自动审查系统此前已成功捕获了 claude.ai 所有事故中三分之一的缺陷。值得注意的是,编写那些代码的正是全球顶尖的工程师。Claude 正在捕捉他们遗漏的错误。
AI 开发循环的演进路径
若希望更深入理解“递归自我改进”为何突然变得如此具体,下图可提供更直观的视角。
先牢记主线:AI 先是辅助人类编写代码,随后独立完成完整工作流,最终逼近“帮助自我进化”的闭环。
Anthropic 将这一演进过程绘制成清晰的图表:
| 时间段 | 阶段 | 人类角色 |
|---|---|---|
| 2021–2023 | 构建首个 Claude | 人类编写代码与文档,与其他公司无异 |
| 2023–2025 | 聊天机器人阶段 | AI 生成短代码片段,人类复制粘贴 |
| 2025–2026 | 编码智能体阶段 | AI 独立编写并编辑代码,处理完整文件 |
| 当前阶段 | 自主智能体阶段 | AI 自主运行代码并委派任务给其他 AI |
| 20XX? | 闭环阶段 | AI 构建并训练自身模型,Claude 由 Claude 改进 |
我们正处于第四行。第五行即递归自我改进。
三种未来走向
若习惯从分叉路径的角度理解趋势,可先参考下图。
图表的核心含义其实很简单:真正需要准备的,不是“AI 是否会变强”,而是它将沿着哪条路径持续加速。
文章提出了三种可能的走向:
场景一:趋势停滞。 指数曲线实为 S 曲线,能力增长终将触及天花板。但即便冻结在现有水平,100 人的团队也能完成 1000 人的工作量。Anthropic 认为此场景可能性较低。
场景二:持续加速,人类仍掌控方向。 AI 开发基本实现自动化,人类负责方向选择与结果判断。100 人团队可完成 10 万人的工作量。Anthropic 认为我们正步入此场景。但阿姆达尔定律同样适用——当部分工作被加速后,瓶颈将转移至其他环节。当前,人类代码审查已成为新的瓶颈。
场景三:完整的递归自我改进。 AI 自主设计下一代版本,人类仅承担监督与验证职责。进步速度完全由算力决定。这是不确定性最高的场景——对齐问题可能得以解决,也可能因模型持续自我迭代而失控。
Anthropic 的立场
文章末尾的段落值得反复研读。Anthropic 的立场是:他们正在研究如何构建可信的验证机制——让各方均能确认其他人确实暂停了,之后 Anthropic 才愿意共同放缓。然而,训练运行比导弹发射井更易隐藏,可信暂停在技术层面极具挑战。
坦率而言,这段话的信息密度甚至超过前面的数据。一家前沿 AI 公司公开表示“我们愿意慢下来,但前提是别人也能证明他们慢下来了”——这本身就是强烈的信号。
最后总结
这篇文章的价值不在于展望,而在于数据。80% 的代码占比、8 倍产出提升、52 倍加速——这些并非预测,而是已然发生的事实。
递归自我改进尚未全面到来,但 AI 构建 AI 的循环已在加速运转。问题已不再是它是否会来,而是我们是否做好了准备。