顶级AI安全研究员“卡神”转战Anthropic，任职业内最具挑战性岗位

2026-05-20阅读 0热度 0

Anthropic

美国当地时间5月19日，人工智能领域传来一则重磅人事变动：OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕西（Andrej Karpathy）在社交平台X上宣布，正式加盟另一家头部AI公司Anthropic。

卡帕西在推文中写道：“我加入了Anthropic。未来几年很可能将是大语言模型前沿发展最具决定性意义的阶段。我非常期待加入这个团队，重回研发一线。”根据外媒报道，他将在Anthropic的预训练团队负责人尼克·约瑟夫（Nick Joseph）麾下，组建一支新团队，核心任务聚焦于利用其旗舰模型Claude来加速AI自身的预训练研究。

换句话说，他的核心工作，是让AI去优化AI的训练过程。这个听起来颇具科幻色彩的方向，在AI安全研究领域其实有一个流传已久的正式名称：递归自我改进。其核心理念在于，AI系统能够通过分析并优化自身的训练流程，从而实现能力的迭代与跃升。

数十年来，递归自我改进更多地停留在理论探讨与思想实验的层面。但形势正在起变化。就在5月初，Anthropic联合创始人杰克·克拉克发布长文预测，到2028年底AI实现递归自我改进的概率约为60%。紧接着，5月13日，由Meta FAIR前研究总监田渊栋等人创立的Recursive Superintelligence公司也正式亮相，其核心方向同样是递归自我改进。

迹象表明，随着算力、数据规模和模型基础能力共同跨越某个临界点，这个长期被视为“远期概念”的方向，正被全球顶尖的AI实验室提上日程，转化为实实在在的工程项目。

01 为什么是卡帕西？

审视卡帕西的职业履历，不难理解为何他成为担此重任的理想人选。他本身就是一部AI从实验室走向大规模工程应用的活历史。

作为OpenAI最早期的研究科学家之一，他在2015年至2017年间深耕深度学习与计算机视觉。2017年，他被埃隆·马斯克挖角至特斯拉，出任AI总监，领导Autopilot视觉团队，亲手将神经网络从研究论文部署到了数百万辆量产车上。这五年里，他主导构建了特斯拉标志性的“数据引擎”——一套高度工程化的、针对感知模型的“自我改进”闭环系统。尽管对象是视觉模型而非语言模型，但其内在的“自动化迭代”逻辑与递归自我改进一脉相承。

此后，他于2022年离开特斯拉，在2023年短暂重返OpenAI约一年后，于2024年创办了AI教育公司Eureka Labs。如今加盟Anthropic，标志着这位兼具顶尖学术背景与超大规模工程实践经验的大牛，正式回归大型语言模型研发的最前线。预训练是整个大模型流水线中成本最昂贵、最依赖算力堆叠，也最考验工程经验智慧的环节。有行业媒体评价，卡帕西正是“少数能同时深刻理解LLM理论并拥有大规模训练实战经验的研究者之一”。

02 从论文走向工程：递归自我改进的加速信号

卡帕西的入职时间点并非偶然。就在两周前，Anthropic联合创始人杰克·克拉克在他主理的通讯《Import AI》第455期中，已经给出了一番详尽的数据推演。

他写道，在花费数周时间梳理了数百份公开数据后，得出的判断是：到2028年底，递归自我改进发生的概率约为60%。这一论断建立在一系列可量化、可验证的基准趋势之上。

例如，在测试AI能否解决真实GitHub问题的SWE-Bench上，最佳成绩从2023年底Claude 2的约2%，飙升至Claude Mythos Preview的93.9%；METR基准测量的“AI可靠完成任务的时间跨度”从2022年GPT-3.5的约30秒，大幅提升到2026年Opus 4.6的约12小时；而在测试AI复现学术论文的CORE-Bench上，最高分也从基准推出时的21.5%，在2025年12月被Opus 4.5以95.5%的惊人成绩“基本解决”。

更直接的证据来自Anthropic内部。一项让模型自主优化小型语言模型训练过程的基准显示，AI带来的加速倍数从2025年5月Opus 4的2.9倍，跃升到2026年4月Claude Mythos Preview的52倍。相比之下，人类研究员完成4倍加速则需要4到8小时。

克拉克的核心论点是，AI研发中那些耗费大量人力的“苦活累活”——数据清洗、实验运行、参数搜索、内核优化——如今已完全落入当前最先进模型的能力范围。即便AI暂时还缺乏碘伏范式的原始创造力，仅仅是通过自动化这些工程环节，就足以显著加速整个研发的迭代周期。

5月7日，Anthropic发布的《Anthropic研究所研究纲要》将“AI for AI R&D”列为四大核心研究方向之一，明确提出要构建测量AI研发加速度的遥测系统，并将其作为递归自我改进的早期预警信号；同时探讨，如果“智能爆炸”的临界点逼近，哪些干预节点是可行的，又该由谁（政府、公司或其他主体）来行使干预权。

克拉克对媒体表示：“我的预测是，到2028年底，我们更有可能看到这样的AI系统：你可以对它说‘去创造一个更好的你自己’，然后它就能完全自主地去执行。”工程层面的布局其实更早。2026年4月，Anthropic Fellows项目就公开了一项实验，测试Claude Opus 4.6能否在“弱到强监督”这一关键对齐研究问题上自主推进，包括分解任务、生成假设、设计评估和迭代优化——这相当于让AI智能体整建制地承担起一项完整的研究流程。

03 潜力与风险：全行业关注的战略赛点

一场围绕递归自我改进的竞速，已在多条战线上悄然展开。

除了前述田渊栋等人的创业公司，行业巨头内部也动作频频。克拉克在文章中透露，OpenAI的内部目标是“到2026年9月构建一个自动化的AI研究实习生”，DeepMind虽然态度更为谨慎，但也表示“在可行时应推进对齐研究的自动化”。从大厂的内部目标到独立的初创项目，递归自我改进已然成为前沿AI实验室共同瞄准的战略高地。

然而，这里存在一个无法回避的悖论。Anthropic的创立叙事本身建立在“AI安全优先”的基石之上，而递归自我改进，恰恰是AI安全社区长期最担忧、最具潜在风险的能力之一。

华盛顿大学机器学习教授佩德罗·多明戈斯对克拉克的60%概率判断回应称：“自1950年代LISP语言诞生以来，AI就具备了自我构建的能力。真正的问题是这一过程能否带来递增的回报——目前还没有证据支持这一点。”批评者的核心质疑并非RSI“是否可能”，而在于其“是否能产生指数级而非线性的边际回报”。如果每一代AI自我优化的效率增益只是线性增长甚至递减，那么这条路线的终极影响力将被限制在可控范围内。

AI安全研究者埃利泽·尤德科夫斯基的回应则更为直接和尖锐：“那你将和我们其他人一起死去。”克拉克本人在文章中也并未回避风险。他给出了一组测算：假设当前的对齐技术准确率为99.9%，在经过50代迭代后，这一比例可能降至约95%，500代后则可能滑落至约60%——这类似于基因突变中发生的“复利漂移”效应。在AI深度参与自身训练的循环中，对人类意图的“对齐”能否作为一项可靠的约束条件，被准确地传递给每一代后续模型，目前仍是一个巨大的未知数。

Anthropic似乎选择了一条“最懂风险的人最适合驾驭风险”的路径：同步推进能力探索与对齐研究，试图用更快的工程迭代节奏，跑赢潜在的失控风险。这个答案能否成立，很大程度上将取决于卡帕西的团队以及Anthropic研究所未来公开的数据验证。

值得注意的是，Anthropic在研究纲要中作出了一项相对罕见的承诺：将公开发布“我们的工作如何因新的AI工具而加速”以及“与AI系统潜在递归自我改进相关的数据”。这项承诺能否被如实兑现，将成为判断Anthropic在递归自我改进这条路上究竟是脚踏实地进行工程攻坚，还是仅仅进行策略性定位的关键标尺。

眼下，卡帕西的加盟，无疑为AI产业竞争重心的转移添上了醒目的注脚——竞争正从“投入更多算力训练更大参数量的模型”，转向“如何让AI更深入、更高效地参与自身的训练与进化过程”。这是一条蕴藏着巨大潜力的道路，同时也可能是一条异常危险的道路。其结果，或许将决定下一个AI时代的根本面貌。

顶级AI安全研究员“卡神”转战Anthropic，任职业内最具挑战性岗位

01 为什么是卡帕西？

02 从论文走向工程：递归自我改进的加速信号

03 潜力与风险：全行业关注的战略赛点

相关阅读

最新教程

最新资讯