顶级AI安全研究员“卡神”转战Anthropic,任职业内最具挑战性岗位

2026-05-20阅读 0热度 0
Anthropic

美国当地时间5月19日,人工智能领域传来一则重磅人事变动:OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕西(Andrej Karpathy)在社交平台X上宣布,正式加盟另一家头部AI公司Anthropic。

卡帕西在推文中写道:“我加入了Anthropic。未来几年很可能将是大语言模型前沿发展最具决定性意义的阶段。我非常期待加入这个团队,重回研发一线。”根据外媒报道,他将在Anthropic的预训练团队负责人尼克·约瑟夫(Nick Joseph)麾下,组建一支新团队,核心任务聚焦于利用其旗舰模型Claude来加速AI自身的预训练研究。

换句话说,他的核心工作,是让AI去优化AI的训练过程。这个听起来颇具科幻色彩的方向,在AI安全研究领域其实有一个流传已久的正式名称:递归自我改进。其核心理念在于,AI系统能够通过分析并优化自身的训练流程,从而实现能力的迭代与跃升。

数十年来,递归自我改进更多地停留在理论探讨与思想实验的层面。但形势正在起变化。就在5月初,Anthropic联合创始人杰克·克拉克发布长文预测,到2028年底AI实现递归自我改进的概率约为60%。紧接着,5月13日,由Meta FAIR前研究总监田渊栋等人创立的Recursive Superintelligence公司也正式亮相,其核心方向同样是递归自我改进。

迹象表明,随着算力、数据规模和模型基础能力共同跨越某个临界点,这个长期被视为“远期概念”的方向,正被全球顶尖的AI实验室提上日程,转化为实实在在的工程项目。

01 为什么是卡帕西?

审视卡帕西的职业履历,不难理解为何他成为担此重任的理想人选。他本身就是一部AI从实验室走向大规模工程应用的活历史。

作为OpenAI最早期的研究科学家之一,他在2015年至2017年间深耕深度学习与计算机视觉。2017年,他被埃隆·马斯克挖角至特斯拉,出任AI总监,领导Autopilot视觉团队,亲手将神经网络从研究论文部署到了数百万辆量产车上。这五年里,他主导构建了特斯拉标志性的“数据引擎”——一套高度工程化的、针对感知模型的“自我改进”闭环系统。尽管对象是视觉模型而非语言模型,但其内在的“自动化迭代”逻辑与递归自我改进一脉相承。

此后,他于2022年离开特斯拉,在2023年短暂重返OpenAI约一年后,于2024年创办了AI教育公司Eureka Labs。如今加盟Anthropic,标志着这位兼具顶尖学术背景与超大规模工程实践经验的大牛,正式回归大型语言模型研发的最前线。预训练是整个大模型流水线中成本最昂贵、最依赖算力堆叠,也最考验工程经验智慧的环节。有行业媒体评价,卡帕西正是“少数能同时深刻理解LLM理论并拥有大规模训练实战经验的研究者之一”。

02 从论文走向工程:递归自我改进的加速信号

卡帕西的入职时间点并非偶然。就在两周前,Anthropic联合创始人杰克·克拉克在他主理的通讯《Import AI》第455期中,已经给出了一番详尽的数据推演。

他写道,在花费数周时间梳理了数百份公开数据后,得出的判断是:到2028年底,递归自我改进发生的概率约为60%。这一论断建立在一系列可量化、可验证的基准趋势之上。

例如,在测试AI能否解决真实GitHub问题的SWE-Bench上,最佳成绩从2023年底Claude 2的约2%,飙升至Claude Mythos Preview的93.9%;METR基准测量的“AI可靠完成任务的时间跨度”从2022年GPT-3.5的约30秒,大幅提升到2026年Opus 4.6的约12小时;而在测试AI复现学术论文的CORE-Bench上,最高分也从基准推出时的21.5%,在2025年12月被Opus 4.5以95.5%的惊人成绩“基本解决”。

更直接的证据来自Anthropic内部。一项让模型自主优化小型语言模型训练过程的基准显示,AI带来的加速倍数从2025年5月Opus 4的2.9倍,跃升到2026年4月Claude Mythos Preview的52倍。相比之下,人类研究员完成4倍加速则需要4到8小时。

克拉克的核心论点是,AI研发中那些耗费大量人力的“苦活累活”——数据清洗、实验运行、参数搜索、内核优化——如今已完全落入当前最先进模型的能力范围。即便AI暂时还缺乏碘伏范式的原始创造力,仅仅是通过自动化这些工程环节,就足以显著加速整个研发的迭代周期。

5月7日,Anthropic发布的《Anthropic研究所研究纲要》将“AI for AI R&D”列为四大核心研究方向之一,明确提出要构建测量AI研发加速度的遥测系统,并将其作为递归自我改进的早期预警信号;同时探讨,如果“智能爆炸”的临界点逼近,哪些干预节点是可行的,又该由谁(政府、公司或其他主体)来行使干预权。

克拉克对媒体表示:“我的预测是,到2028年底,我们更有可能看到这样的AI系统:你可以对它说‘去创造一个更好的你自己’,然后它就能完全自主地去执行。”工程层面的布局其实更早。2026年4月,Anthropic Fellows项目就公开了一项实验,测试Claude Opus 4.6能否在“弱到强监督”这一关键对齐研究问题上自主推进,包括分解任务、生成假设、设计评估和迭代优化——这相当于让AI智能体整建制地承担起一项完整的研究流程。

03 潜力与风险:全行业关注的战略赛点

一场围绕递归自我改进的竞速,已在多条战线上悄然展开。

除了前述田渊栋等人的创业公司,行业巨头内部也动作频频。克拉克在文章中透露,OpenAI的内部目标是“到2026年9月构建一个自动化的AI研究实习生”,DeepMind虽然态度更为谨慎,但也表示“在可行时应推进对齐研究的自动化”。从大厂的内部目标到独立的初创项目,递归自我改进已然成为前沿AI实验室共同瞄准的战略高地。

然而,这里存在一个无法回避的悖论。Anthropic的创立叙事本身建立在“AI安全优先”的基石之上,而递归自我改进,恰恰是AI安全社区长期最担忧、最具潜在风险的能力之一。

华盛顿大学机器学习教授佩德罗·多明戈斯对克拉克的60%概率判断回应称:“自1950年代LISP语言诞生以来,AI就具备了自我构建的能力。真正的问题是这一过程能否带来递增的回报——目前还没有证据支持这一点。”批评者的核心质疑并非RSI“是否可能”,而在于其“是否能产生指数级而非线性的边际回报”。如果每一代AI自我优化的效率增益只是线性增长甚至递减,那么这条路线的终极影响力将被限制在可控范围内。

AI安全研究者埃利泽·尤德科夫斯基的回应则更为直接和尖锐:“那你将和我们其他人一起死去。”克拉克本人在文章中也并未回避风险。他给出了一组测算:假设当前的对齐技术准确率为99.9%,在经过50代迭代后,这一比例可能降至约95%,500代后则可能滑落至约60%——这类似于基因突变中发生的“复利漂移”效应。在AI深度参与自身训练的循环中,对人类意图的“对齐”能否作为一项可靠的约束条件,被准确地传递给每一代后续模型,目前仍是一个巨大的未知数。

Anthropic似乎选择了一条“最懂风险的人最适合驾驭风险”的路径:同步推进能力探索与对齐研究,试图用更快的工程迭代节奏,跑赢潜在的失控风险。这个答案能否成立,很大程度上将取决于卡帕西的团队以及Anthropic研究所未来公开的数据验证。

值得注意的是,Anthropic在研究纲要中作出了一项相对罕见的承诺:将公开发布“我们的工作如何因新的AI工具而加速”以及“与AI系统潜在递归自我改进相关的数据”。这项承诺能否被如实兑现,将成为判断Anthropic在递归自我改进这条路上究竟是脚踏实地进行工程攻坚,还是仅仅进行策略性定位的关键标尺。

眼下,卡帕西的加盟,无疑为AI产业竞争重心的转移添上了醒目的注脚——竞争正从“投入更多算力训练更大参数量的模型”,转向“如何让AI更深入、更高效地参与自身的训练与进化过程”。这是一条蕴藏着巨大潜力的道路,同时也可能是一条异常危险的道路。其结果,或许将决定下一个AI时代的根本面貌。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策