Karpathy加盟Anthropic:AI巨头IPO前夜的关键布局与行业影响深度解析
就在OpenAI和Anthropic双双紧锣密鼓筹备IPO的关键时刻,AI圈传来一则重磅消息:Andrej Karpathy宣布加入Anthropic。这位大模型领域的旗帜性人物,其一举一动总能引发行业震动,连Claude Code之父也第一时间表达了兴奋之情。
消息一出,社区反应热烈。不少网友的第一反应颇为有趣:Karpathy这下可以“公款”烧Tokens了!毕竟,就在几天前,OpenClaw之父刚透露其项目每月消耗高达130万美元。
这个时间点的选择意味深长。对Anthropic而言,这无疑是一次在技术、人才与资本三重维度上的战略性胜利;而对OpenAI来说,在IPO冲刺期遭遇核心人才流向直接竞争对手,无疑精准击中了其在人才留存与研发持续性方面的软肋。这位在OpenAI、特斯拉、学术界与创业圈之间自如穿梭的顶尖人物,其影响力从来不容小觑。
Karpathy的履历:从学术标杆到工业前沿
Andrej Karpathy的学术之路始于多伦多大学和英属哥伦比亚大学,扎实的数学与计算机基础在此奠定。2011年,他进入斯坦福大学攻读博士学位,师从李飞飞教授,研究方向聚焦于卷积神经网络与循环神经网络在计算机视觉、自然语言处理及其交叉领域的应用。
博士期间,他与李飞飞教授共同设计并主讲了斯坦福课程CS231n(卷积神经网络视觉识别)。这门课程后来成为全球深度学习入门的黄金标准,数以百万计的视频播放量影响了一整代AI研究者。他的博士研究还涉及图像生成与深度强化学习,这种跨领域的视野为其日后多元的职业路径铺就了底色。
2015年底,Karpathy作为创始成员加入OpenAI,亲历了这家传奇实验室从零起步的早期阶段。2017年,埃隆·马斯克亲自将他招至特斯拉,出任AI高级总监,领导Autopilot团队的计算机视觉研发。在特斯拉的五年间,他负责所有神经网络相关工作,将Autopilot从实验性项目推向量产级别,也成为特斯拉纯视觉方案最坚定的技术推手之一。
2024年2月,他短暂回归OpenAI,参与中间训练与合成数据方面的工作,为期约一年。同年7月,他创办了AI原生教育公司Eureka Labs。2025年初,他在X平台提出的“氛围编程”概念迅速出圈,成为年度热词,描述了一种开发者用自然语言描述意图、由AI生成大部分代码的新范式。
2026年5月19日,Karpathy正式宣布加入Anthropic,将在Nick Joseph领导的预训练团队中组建新队伍,核心任务是利用Claude自身来加速预训练研究。他在官宣中特别强调,“LLM的前沿正处在极具塑造性的阶段”。无独有偶,Meta离职的田渊栋创业团队也将目标锁定在“AI加速AI研究”上,这已是顶尖研究者们竞相涌入的核心战场。
Karpathy曾入选《时代》周刊2024年AI领域百大影响力人物,是业内少数同时拥有顶级学术声誉、大规模工业落地经验和广泛大众影响力的人物。他的开源项目以极简的代码阐释深刻原理而闻名,每一个都引发巨大反响:从仅需100美元即可从头训练ChatGPT的nanochat,到让AI智能体自动研究的autoresearch,再到让多模型辩论的llm-council,以及评估美国职业的jobs项目。其中,个人知识库项目llm-wiki.md甚至已成为社区AI知识管理工具的生态孵化器。
什么让Karpathy放下了教育热情?LLM前沿的“塑造性”时刻
Karpathy在官宣中表示对教育事业充满热情,并会在适当时机重启。那么,是什么让他暂时放下了这份热情?他用了“formative”这个词——意指“正在成型的、塑造性的”。
2025年至2026年,LLM的技术范式正在经历一场深刻转变,多条技术路线同时抵达拐点,这种窗口期在技术史上并不常见。
2025年之前,竞争的主轴是参数规模与预训练数据量。然而风向在2025年悄然改变,前沿模型开始比拼推理能力,即模型的规划、自我检查与纠错能力。OpenAI的o1、o3系列,DeepSeek的R1,都采用了RLVR(可验证奖励的强化学习)和GRPO(组相对策略优化)等技术,将能力提升的战场从预训练延伸到了推理阶段。
这引出了一个关键变化:推理时计算缩放。过去,模型能力提升主要依赖训练时投入更多算力;现在,则可以在推理时让模型“多想几步”、“多试几次”,用更多的推理时间换取更高的准确率。链式思考、自我反思、ReAct等技术使得模型能在推理时动态分配计算资源。以前模型的能力在训练完成时便已定型,如今在推理中仍能继续“成长”。这种范式转变,对算力分配、产品架构乃至商业模式都将产生深远影响。
正如Sebastian Raschka在其2025年LLM年度总结中所言:2025年是推理之年,2026年将是编排之年。模型本身正趋于同质化,真正的差异化在于如何编排与调度多个模型、多个智能体协同工作。智能体AI正从概念走向产品,模型不再仅仅是回答问题,而是能够规划、执行、反思与纠错。
与此同时,缩放定律也在演化出新思路。研究者们开始意识到,预训练的缩放定律存在天花板,数据质量、合成数据、推理时计算等新维度正在重新定义“缩放”的边界。2025年末至2026年初,高质量人类生成数据的“数据墙”问题日益突出,合成数据能在多大程度上替代,尚无定论。
Karpathy选择在此刻回归研发一线,加入Anthropic预训练团队,致力于用Claude加速预训练本身,这是一个带有“元计算”色彩的方向:用AI训练AI。预训练是大模型的地基,其夯实程度决定了上层建筑的高度。在推理、编排、智能体能力快速迭代的窗口期,预训练方法的任何改进都将产生巨大的放大效应。这正是“formative”的含义所在——未来几年的关键决策与技术选择,将定义接下来十年大语言模型的基本形态。
Anthropic里的OpenAI老将:剪不断的技术渊源
Anthropic自诞生之日起,就与OpenAI有着千丝万缕的联系。其创立本身,便源于一次OpenAI核心团队的人才出走。
2024年,Dario Amodei与Daniela Amodei兄妹带领约15名前OpenAI员工创立了Anthropic。Dario此前是OpenAI的研究副总裁,与Ilya Sutskever并列为公司的技术核心;Daniela则负责商业化运营。他们对OpenAI的安全文化与商业化方向存在分歧,旨在创建一家更注重AI安全的公司。正如《纽约时报》2026年2月的报道所描述的,这群人因共同的安全理念而凝聚。
Anthropic公开的七位联合创始人,清一色拥有OpenAI背景:Dario Amodei、Daniela Amodei、Tom Brown、Jared Kaplan、Sam McCandlish、Jack Clark、Chris Olah。其中,Tom Brown是GPT-3论文的第一作者,而GPT-3被视为大语言模型时代的真正起点;Jared Kaplan在缩放定律方面的奠基性研究,为后来的GPT-4、Claude等模型提供了理论框架;Chris Olah则是可解释性研究的先锋人物。
此后,更多重量级OpenAI人才陆续加入:预训练团队负责人、Karpathy的直接上级Nicholas Joseph;专注AI安全的Holden Karnofsky;前超级对齐团队联席负责人Jan Leike;同样来自对齐团队的William Saunders;以及核心研究员Evan Hubinger。甚至连OpenAI联合创始人之一的John Schulman也曾短暂加入约五个月。
从OpenAI流向Anthropic的核心人员已超过15人,覆盖领导层、预训练、对齐安全、可解释性等所有关键方向。可以说,Anthropic的技术基因深深烙印着OpenAI的印记。这也使得Karpathy选择Anthropic显得顺理成章:这里有他最熟悉的技术语言和最认同的同行。
双赢之选:技术理念、资本实力与范式前沿的交汇
有分析指出,Karpathy选择Anthropic而非xAI或重返OpenAI,释放了一个重要的方向性信号,表明他对Anthropic的安全理念与技术路线有更高的认同。在AI顶尖人才的争夺战中,Anthropic已然跑在了Meta和OpenAI前面。
再看其资本实力。2026年2月,Anthropic完成了300亿美元的G轮融资,估值达3800亿美元,谷歌承诺投资高达400亿美元,亚马逊也是其主要股东。有报道称,其估值在2026年5月已冲至9000亿美元级别。充足的资本弹药加上顶尖人才汇聚,Anthropic已成为OpenAI最具竞争力的对手。
对Karpathy个人而言,这次回归研发一线是一个务实的决定。过去两年他在教育领域的探索并未远离其核心能力圈。他在OpenAI的第二段经历所积累的中间训练与合成数据经验,与Anthropic预训练团队的需求高度契合。“用Claude加速预训练研究”这一思路,也极具Karpathy的个人风格——他始终在思考AI如何改变AI自身的开发方式。
从2017年提出“软件2.0”(神经网络成为软件核心),到2025年勾勒“软件3.0”(提示词作为新编程语言),再到倡导“氛围编程”,他一直站在软件开发范式变迁的最前沿。用AI训练AI,正是这一思想脉络的延续。
当最懂大模型训练的那批人聚集到同一处,技术的迭代速度必将加快,安全研究的深度也将得以拓展。Karpathy的加入,或许正在悄然改变AI领域的竞争格局。


