AI自我进化：Anthropic紧急刹车能否奏效？

2026-06-06阅读 0热度 0

Anthropic

今晨，Anthropic发布一篇措辞强烈的博客，标题直指核心——《When AI Builds Itself》（当AI开始自我构建）。当前浏览量已逼近700万，这一话题的引爆力不言自明。

文章由公司联合创始人Jack Clark与内部研究机构The Anthropic Institute负责人Marina Favaro联名撰写。核心论点一句话即可概括：AI正加速渗透进自身的研发流程。若此趋势走向极端，AI将能在无人类干预下，自主设计、测试并训练出更强大的下一代系统。基于这一预判，Anthropic呼吁全球主要AI实验室考虑暂停开发，或至少建立一套可互相核验的减速机制。

（来源：X）

此番表态之所以激起轩然大波，不仅在于内容本身，更在于发言者身份——Anthropic正是一家冲击商业巅峰的公司。

就在文章发布前数日，Anthropic完成最新一轮融资，估值达9650亿美元，正式超越OpenAI。同一周，公司向美国证券交易委员会秘密递交S-1注册声明草案，启动IPO筹备。年化营收从2025年底约90亿美元飙升至当前近470亿美元，预计本月底将突破500亿美元。正值公司冲击公开市场、商业势能登顶之际，却发出“请考虑减速”的信号，这种反差令人不得不揣测其背后动机。

不过，讨论动机之前，不妨先审视文章拿出了什么。它确实提供了实打实的内部数据。而这些数据的价值在于，它们指向一个愈发清晰的趋势：AI研发自动化正成为行业共识。

AI 研发自动化正成为行业共识

Anthropic的文章围绕一个核心概念展开——“递归自我改进”（Recursive Self-Improvement, RSI）。它指AI系统自主完成设计、测试、训练下一代AI的完整闭环，人类不再是关键角色。这一概念并不新鲜，但过去一年里，它正从理论走向现实。几乎所有头部AI公司都在向这一方向投入资源。

以OpenAI为例，这家公司已将“AI参与AI研发”列为核心关注事项。其安全团队专门设立了“Recursive Self-Improvement Preparedness”相关岗位，用于研究当AI能显著加速自身研发时可能带来的能力跃迁与风险。OpenAI此前公开透露，其内部目标是在2026年前后打造出达到“研究实习生”水平的AI系统，并在2028年实现能独立承担研究任务的自动化AI研究员。

Google DeepMind则走了一条更偏算法发现的路线。它的AlphaEvolve项目让AI自主提出算法方案、运行实验、筛选结果，再将优秀方案反馈回系统继续迭代。这套系统已被用于数据中心调度优化和AI训练效率提升等实际场景，据报道还找到了56年来首个对Strassen矩阵乘法算法的改进。从某种意义上说，这也是DeepMind对“奇点”判断的重要依据之一：当AI开始参与甚至推动新的科学发现和算法创新时，技术进步将进入加速循环。

头部公司之外，越来越多的创业公司也开始围绕“自动化AI研发”布局。例如近期获得大额融资的Recursive Superintelligence，以及将“构建擅长AI研发的系统”写入公司使命的Mirendil，都是这一趋势的代表。技术路径各不相同，但它们瞄准的是同一个目标：让AI从研发工具变成研发过程的参与者，并最终承担越来越多的研发工作。

图 | Recursive Superintelligence 创始成员（来源：X）

正是在这个背景下，Anthropic发布了这篇长文。它的立场很谨慎：RSI还没有发生，也不一定会发生，但它到来的速度“可能比大多数机构准备好的时间更快”。

AI 已经在多大程度上接管了 AI 研发？

在文章中，Anthropic用三组此前未公开的内部数据支撑了这个判断。

第一组数据关乎AI的代码能力。截至2026年5月，Anthropic合并到生产代码库中的代码有超过80%由Claude编写。2025年2月Claude Code上线之前，这个比例还是个位数。与之对应，2026年第二季度工程师人均每天合并的代码量，是2024年的整整8倍。文章专门补充说明：代码行数衡量的是数量而非质量，8倍很可能高估了真实的生产力提升。但趋势清晰可见：工程师的角色正在从“写代码”转向“指引方向和审查结果”。

（来源：Anthropic）

更关键的是，Claude写的代码质量还在快速提升。Anthropic内部跟踪了工程师在Claude Code工作过程中需要纠正或中途接管的频率，这个频率在过去一年持续下降。到2026年5月，Claude处理最高难度开放式任务的成功率达到76%，六个月之内上升了整整50个百分点。

第二组数据涉及AI的科研能力。Anthropic有一个内部基准测试：给Claude一段训练小型AI模型的CPU代码，要求它在不改变正确性的前提下尽可能提速。2025年5月，Claude Opus4的平均加速比约为3倍；到了2026年4月，Claude Mythos Preview达到了约52倍。

作为参照，一名熟练的人类研究员通常需要四到八小时才能达到约4倍加速。Anthropic提醒说，绝对倍数受起始代码优化空间的影响，不应直接解读为真实世界的训练加速，但同一测试条件下，一年之内从3倍跃升到52倍，这个结果本身就值得高度警惕。

第三组数据来自工程实践。2026年4月，Claude自主修复了超过800个API错误，将该类错误的发生率降低了大约1000倍。负责的工程师估计，同样的工作让人来做，大概需要四年。修复别人写的Bug，是人类开发者最头痛的事情之一，因为很难同时记下那么多不熟悉的代码上下文。可这类任务，恰恰是AI的绝对优势领域。

文章还公布了一个颇有意思的实验。2026年4月，研究人员将多个Claude智能体交给一个AI安全领域的开放问题：弱模型能否可靠地监督强模型？智能体自行提出假设、设计实验、运行测试，在并行智能体之间共享发现并迭代。最终结果是：两位人类研究员花了一周时间，弥补了该任务性能上下限之间约23%的差距；而Claude智能体累计运行800小时后，弥补了97%的差距。

更值得注意的是，AI提升的不只是执行能力，连“下一步该做什么”的判断能力也在同步增强。Anthropic内部的一项回溯评测显示，当研究人员在项目推进过程中走入错误方向时，Claude越来越能够提出更优的替代方案。最新模型Claude Mythos Preview给出的研究路径，有64%的概率被评审认为优于人类研究者当时的实际选择。这意味着AI不仅开始帮助研究者完成工作，也正在越来越多地参与研究方向本身的选择。

（来源：Anthropic）

这些数据拼在一起，指向的是同一个大局：AI正在接管越来越多原本由研究人员亲自完成的工作。写代码、调试系统、运行实验、分析结果——这些过去占据大量时间的研发环节，正越来越多地由AI完成。人类的角色，则逐渐从执行者转向监督者和决策者。

正因为如此，Jack Clark对递归自我改进的时间表判断相当激进。他在2026年5月的newsletter中估计，到2028年底出现完全自动化AI研发的概率约为60%，到2027年底约为30%。

如果Clark的判断成立，那么问题很快就会从“RSI是否可能出现”变成“当它真的出现时怎么办”。因此，Anthropic这篇文章真正想讨论的，其实不只是技术，更是技术发展过快之后的治理难题。

在文章中，Anthropic提出了三种可能的未来：第一种是AI能力增长逐渐放缓，但现有能力已经足以广泛扩散；第二种是AI继续带来复合型效率提升，人类仍负责设定研究方向，但越来越多执行环节被自动化；第三种，也是最激进的一种，是AI系统真正具备完整的递归自我改进能力，开始自主构建下一代模型。Anthropic最担心的是后两种情形，因为它们留给社会、政府和安全研究的准备时间都非常有限。

在文章最后，Anthropic将问题的答案落到“减速”与“核查”上。它认为，如果能有效放慢前沿AI开发，让社会制度和对齐研究跟上技术进展，这很可能是一件好事。但单方面暂停意义不大——它只会改变谁是领先者，并不会让整个行业获得真正的讨论时间。真正有用的暂停，必须是多国、多家前沿实验室在相同条件下共同减速，并且能够彼此验证对方确实停了下来。

呼吁暂停的人，未必能停下

回到开头的问题：作为一家势头正猛且即将上市的公司，Anthropic呼吁停止AI开发的动机，真的如此纯粹吗？

公开讨论前沿AI的潜在风险，确实是Anthropic的一贯作风。从成立至今，这家公司已经多次发布关于模型能力、安全治理和监管框架的研究与政策文件。只不过这一次，讨论的对象从AGI进一步推进到了RSI。

联创Clark在接受Axios采访时解释说：“我们一直发现，最好的做法是让大家理解这个概念，让人们了解即将发生什么。”他说文章背后的核心判断是，“与一些流行观点相反，AI进步在未来几年将会加速，保持不变或放缓的可能性不大。”他还表示，Anthropic希望立法者在真正频繁听到‘递归自我改进’这个词之前，就提前了解这个话题。

但这个解释显然无法消除所有质疑。

风险投资人David Sacks，同时也是特朗普的重要科技顾问，近期就在播客中公开批评Anthropic。他认为，所谓全球核查机制听上去是在防范风险，但实际效果很可能是抬高行业门槛。按照他的逻辑，能够满足审查、合规和安全要求的，往往是Anthropic、OpenAI、Google这些拥有雄厚资金和算力的大公司；而开源模型天然分散在全球各地运行，很难被统一监管。最终的结果，可能不是让AI更安全，而是让少数头部公司获得更大的优势。

类似的质疑此前也出现在产品层面。例如在推出网络安全模型Mythos时，Anthropic对模型访问权限进行了严格限制，理由是其能力过于强大，可能被用于攻击关键基础设施。支持者认为这是负责任的安全措施，但批评者则质疑，公司是否在有意强化“危险但先进”的形象，以突出自身技术的领先地位。

沃顿商学院教授Ethan Mollick对这些矛盾给出了自己的解释。他认为，Anthropic内部实际上同时存在多种力量。一部分人像其他科技公司一样负责商业化、市场和法律事务；一部分研究人员专注于打造更强大的下一代模型；还有一部分人则真正关心AI长期可能带来的社会影响与风险。在Mollick看来，这些群体并不总是立场一致。Anthropic之所以经常呈现出这种一边加速推进模型能力、一边公开讨论潜在风险的矛盾形象，很大程度上正是内部张力的结果。

但还有一个更现实的问题：即便所有人都相信风险存在，真的有人能停下来吗？当所有参与者都处于激烈竞争的环境里，“谁在别人暂停时继续跑，谁就可能继承领先地位”。

文章最后提出的方案是，Anthropic将在未来数月组织政策制定者、研究人员以及其他AI公司参与讨论，探索构建一套可核查的暂停机制。按照设想，多个国家的多个前沿实验室需要在相同条件下同时停止开发，并且每一方都能验证其他参与者确实停了下来。如果这样的机制存在，Anthropic表示自己“预计会减速或暂停”。

“如果”二字，看似轻松，却承载了巨大的重量。历史上，无论是核军控还是其他国际技术治理体系，都花费了数十年时间才建立起核查机制、执行能力和跨国信任。而AI的扩散速度远快于这些先例。到底能不能让整个行业一起踩下刹车，可能比实现RSI本身还要困难。

1.https://www.anthropic.com/institute/recursive-self-improvement
2.https://the-decoder.com/anthropic-co-founder-maps-out-how-recursive-ai-improvement-could-outpace-the-humans-meant-to-supervise-it/
3.https://www.axios.com/2026/06/04/anthropic-warns-ai-build-successors
4.https://www.wsj.com/tech/ai/anthropic-urges-global-pause-in-ai-development-flags-self-improvement-risk-99cefb73?mod=tech_lead_story

AI自我进化：Anthropic紧急刹车能否奏效？

AI 研发自动化正成为行业共识

AI 已经在多大程度上接管了 AI 研发？

呼吁暂停的人，未必能停下

相关阅读

最新教程

最新资讯