Anthropic内部数据曝光：80%代码由AI编写，开发者必看

2026-06-06阅读 0热度 0

Anthropic

Anthropic 首次披露内部数据：超 80% 的代码已由 AI 生成

Anthropic 近期发布了一篇题为《When AI builds itself》的报告。这不是泛泛的趋势预测，而是基于真实生产数据的深度复盘，揭示了一个核心趋势：AI 正在加速自我构建，其迭代速度远超行业预期。

先梳理两个关键背景：

最令人震撼的数据是：截至 2026 年 5 月，Anthropic 合并至主代码库的变更中，超过 80% 由 Claude 编写。这不是实验性演示，而是真实生产环境的统计结果。换言之，AI 驱动的递归式自我改进已悄然成为现实。

什么是递归自我改进？简而言之：AI 系统自行设计并构建下一代 AI 系统。并非人类编写代码来增强 AI，而是 AI 自主编写代码实现自我进化。一旦这个闭环形成，进步速度将不再受限于人类工程师的生产力，而是完全由算力和算法效率驱动。

Anthropic 在文章中清晰勾勒了演进时间线：

2021–2023：人类编写代码，AI 未参与
2023–2025：人类借助聊天机器人辅助编码
2025–2026：AI 独立完成完整文件的编写与编辑
当前阶段：AI 自主运行代码并委派任务给其他 AI 系统
20XX：AI 构建并训练自身的下一代模型

我们正处于第四阶段。第五阶段尚在途中，但趋势已清晰可辨。

AI 能力增速持续攀升

从外部基准测试的演进轨迹来看，加速态势显著：

AI 独立完成任务的时间跨度，从每 7 个月翻一番，缩短至每 4 个月翻一番
2024 年 3 月，Claude 可完成 4 分钟的任务；2025 年 3 月，提升至 1.5 小时；2026 年 3 月，已跃升至 12 小时
SWE-bench（真实缺陷修复基准）：两年内从个位数得分快速趋向饱和
CORE-Bench（论文复现基准）：2024 年成功率仅 20%，15 个月后同样达到饱和

若此趋势延续，持续数天的任务将在今年内纳入能力范围，数周级别的任务在 2027 年也有望攻克。

Anthropic 内部的真实变革

公开基准仅能反映 AI 的能力边界，却无法揭示其对 AI 开发本身的深层影响。而这正是文章的核心价值所在。

若仅需把握最关键的变革脉络，下图可帮助快速建立直观认知。

此图对应后文的核心判断：Anthropic 的变化并非单一维度的突破，而是代码来源、工程效率、研究速度与质量审查等多个维度的同步重构。

工程端：效能提升 8 倍

2021 至 2024 年，每位工程师每日合并的代码量保持稳定。但 2025 年 Claude 开始自主运行代码后，曲线显著上扬。到 2026 年模型能够长时间自主工作时，加速趋势更为陡峭。2026 年 Q2，典型工程师每日合并的代码量已达到 2024 年的 8 倍。

当然，8 倍这一数字可能高估了实际生产力——代码行数并非完美指标。但它足以表明一个事实：加速度真实存在。Anthropic 并不以代码行数考核工程师，产出的提升完全源自 AI 编写了更多代码。

举例说明：2026 年 4 月，Claude 提交了 800 余项修复，将某类 API 错误的发生率降低了上千倍。负责监督的工程师表示，若由人类完成此项工作，至少需要四年。

研究端：从辅助工具到竞争伙伴

在实验优化基准测试中，2025 年 5 月 Claude Opus 4 实现了约 3 倍加速；到 2026 年 4 月，Claude Mythos Preview 已飙升至 52 倍。作为参照，资深人类研究员实现 4 倍加速通常需要 4 至 8 小时。

更值得关注的是研究判断力的测试结果。当模型被呈现一段“即将偏离方向”的研究会话并询问下一步行动时——2025 年 11 月，最佳模型仅 51% 的情况下优于人类选择；而到 2026 年 4 月，这一比例已上升至 64%。文章原话指出：「研究品味」可能只是 AI 系统暂时表现不佳的又一项能力，随后它便会迅速精通。

代码质量：年内将超越人类水平

2025 年底，Claude 编写的代码质量仍略逊于 Anthropic 的人类工程师；如今已基本持平。文章预测：年内将严格超越人类水平。

目前，Anthropic 的每次代码变更均需经过自动化的 Claude 审查。回溯分析显示，这套自动审查系统此前已成功捕获了 claude.ai 所有事故中三分之一的缺陷。值得注意的是，编写那些代码的正是全球顶尖的工程师。Claude 正在捕捉他们遗漏的错误。

AI 开发循环的演进路径

若希望更深入理解“递归自我改进”为何突然变得如此具体，下图可提供更直观的视角。

先牢记主线：AI 先是辅助人类编写代码，随后独立完成完整工作流，最终逼近“帮助自我进化”的闭环。

Anthropic 将这一演进过程绘制成清晰的图表：

时间段	阶段	人类角色
2021–2023	构建首个 Claude	人类编写代码与文档，与其他公司无异
2023–2025	聊天机器人阶段	AI 生成短代码片段，人类复制粘贴
2025–2026	编码智能体阶段	AI 独立编写并编辑代码，处理完整文件
当前阶段	自主智能体阶段	AI 自主运行代码并委派任务给其他 AI
20XX?	闭环阶段	AI 构建并训练自身模型，Claude 由 Claude 改进

我们正处于第四行。第五行即递归自我改进。

三种未来走向

若习惯从分叉路径的角度理解趋势，可先参考下图。

图表的核心含义其实很简单：真正需要准备的，不是“AI 是否会变强”，而是它将沿着哪条路径持续加速。

文章提出了三种可能的走向：

场景一：趋势停滞。 指数曲线实为 S 曲线，能力增长终将触及天花板。但即便冻结在现有水平，100 人的团队也能完成 1000 人的工作量。Anthropic 认为此场景可能性较低。

场景二：持续加速，人类仍掌控方向。 AI 开发基本实现自动化，人类负责方向选择与结果判断。100 人团队可完成 10 万人的工作量。Anthropic 认为我们正步入此场景。但阿姆达尔定律同样适用——当部分工作被加速后，瓶颈将转移至其他环节。当前，人类代码审查已成为新的瓶颈。

场景三：完整的递归自我改进。 AI 自主设计下一代版本，人类仅承担监督与验证职责。进步速度完全由算力决定。这是不确定性最高的场景——对齐问题可能得以解决，也可能因模型持续自我迭代而失控。

Anthropic 的立场

文章末尾的段落值得反复研读。Anthropic 的立场是：他们正在研究如何构建可信的验证机制——让各方均能确认其他人确实暂停了，之后 Anthropic 才愿意共同放缓。然而，训练运行比导弹发射井更易隐藏，可信暂停在技术层面极具挑战。

坦率而言，这段话的信息密度甚至超过前面的数据。一家前沿 AI 公司公开表示“我们愿意慢下来，但前提是别人也能证明他们慢下来了”——这本身就是强烈的信号。

最后总结

这篇文章的价值不在于展望，而在于数据。80% 的代码占比、8 倍产出提升、52 倍加速——这些并非预测，而是已然发生的事实。