AI自进化后如何应对？科学家权威指南

2026-06-16阅读 0热度 0

科学家

大约一周前，正在筹备上市的Anthropic在官方博客发布了一篇题为《When AI builds itself》的文章。这篇博文再次将AI安全议题推至舆论中心。

Anthropic在文中探讨的核心问题被概括为“AI自进化”，其核心论断直截了当：AI已开始主动参与自身更强大版本的构建，进化速度远超我们此前的预期。

严格来说，AI自进化这个概念并不新鲜。从AI技术诞生之初，研究人员就在探索如何让系统自主迭代——类似具身智能领域正在设想的“用机器人制造机器人”理念。

耐人寻味的是，AI科学家一方面对自进化能力感到不安，另一方面却在全力研究甚至主动利用这一能力。

以Meta裁员风波中备受关注的田渊栋（原Meta FAIR团队研究总监）为例，他于今年年初宣布创业，成立了Recursive Superintelligence（RSI），目标直指AI自进化。这家公司不久前刚完成6.5亿美元融资，估值飙升至46.5亿美元（约合315亿元人民币），成为硅谷巨头们热捧的明星团队。

那么，究竟什么是AI自进化？它会失控吗？人类又该如何与AI共存？

今年的智源大会上，这一主题成为核心议题。我们聚焦四位年轻AI科学家关于该议题的思考与预判。通过他们的视角，或许能看清AI自进化的演进方向，也能在焦虑中找到具体应对策略。

这四位分别是：西湖大学工学院人工智能系特聘研究员林涛、NeoCognition联合创始人谷雨、前腾讯混元Frontier专家研究员王琰、以及伦敦大学学院博士、布里斯托大学助理教授杨梦月。

以下是他们对话内容的整理（在不改变原意的前提下进行归纳与提炼）：

01 什么是AI自进化？

问：现在许多AI系统会自我反思、修改指令（Prompt），看起来都带点自我改进的意味。要严格定义的话，什么才算真正的AI自进化？

林涛：我认为自进化应该具有多层次性。它可以表现为“外脑”的进化，也可以表现为“内脑”的进化。关键在于，AI能自主识别自身局限，并同时进化外脑与内脑；或者在进化外脑的过程中，将更多外部能力内化，进而推动内脑进化。

谷雨：在我看来，RSI（递归自我进化）最重要的两个维度是Proactiveness（主动性）和Learning（学习）。Learning解决的是如何让AI具备可靠且持续的在线学习算法；而自进化则要求智能体明确自身的进化方向。因此，需要分别攻克两个问题：一是“what”层面的元认知——系统要知道自己缺什么、需要什么、如何选择；二是“how”层面——具体的学习算法如何实现。

王琰：至少在当下这个时间点，与传统SFT、RL相比，如果系统能降低对人类的依赖程度，就已经算是实现了自进化。

杨梦月：目前大家讨论的RSI，实际是在self improvement基础上再推进一步。它不仅仅是能力增强，还要求“进化能力”本身也能持续进化。这里的关键在于Recursive公司联合创始人Jeff Clune与Tim Rocktaschel所研究的“Open-endedness”方向。在一个开放世界中，智能体是否具备自我提问的能力？能否发现自己的知识边界、系统边界、记忆边界？它必须能突破既有边界去提问。要实现脱离人类的自我进化（包括进化能力的迭代），提问能力至关重要。

问：在当前节点，AI最有价值且最可能率先成熟的自进化环节是什么？

王琰：不知道大家有没有注意到，2025年1月之后模型的迭代速度明显加快。原因很简单：基模领域那些最熟悉AI能力上限的人，已经在代码层面被替代——这已是基模训练中正在发生的现实。Claude、GPT以及国内各基模，迭代速度都在提升。虽不能完全称之为自进化，但确实有AI在参与AI的迭代。至于哪个领域最先成熟，我最直接的感受是基模训练本身——尽管旁边有人类设定方向，本质上它已经在自进化。

问：如果不调整模型参数，只进化其他组成部分，基模能否实现足够强的能力跃迁？

王琰：当然可以。哪怕只是改一下Prompt，效果也可能天差地别。例如，我曾交给实习生一项任务，他们做得不好，我检查发现只是Prompt写得太差。我重写了一个更清晰的Prompt，写清规则，效果立竿见影。既然我能做到，比我更高维度的硅基智能体当然能做得更好，即使不改变模型参数。

问：林老师怎么看？

林涛：这应该是一个迭代过程。首先需要更好的harness（驾驭工程），也就是外脑，充分释放当前模型的上限；随着更多人拥有自己的harness，这些程序又可能被用来训练更强的基模；在更强基模基础上，再发展出更强的harness、更好的外脑——这本身就是一个迭代循环。

问：那你认为当前整合资源做哪一块最容易成熟？

林涛：做harness最容易。

谷雨：我更倾向于用统一视角来看待harness和skill。从统一视角出发，它们都属于长期记忆，只是角度不同：harness是元认知层面的长期记忆，skill更多是工作流或过程性知识的长期记忆，模型参数则偏向直觉层面的长期记忆。如果问先做哪个，从学术研究角度很难定论——它们都重要且相互促进。但站在公司角度，更容易起步的仍是harness——有了harness就能产出产品，有产品就有用户，有用户就有数据和闭环。

杨梦月：我自己更关注记忆层面的进化，因为我的研究方向是规则理解与因果推理。现在大家能感受到，模型能力越来越强，逐渐在覆盖harness的功能，不断吞噬harness的边界并触及上限。因此未来发展很难预测，可能基模越强，harness方向的提升空间就越微乎其微。

02 AI先在哪个环节自进化？

问：AI自进化在什么时间点发生最为合适？

谷雨：关于harness我先补充一点：虽然它可能被模型进步蚕食，但有些模块必然保留，比如保证模型安全性与可验证性的模块——这是概率模型永远无法取代的。至于自进化发生的时机，我认为可以理解为“Learning加长程记忆”。对人而言，每一次推理、每一次解决问题都是一次学习机会——我们不会等到收集一大堆问题后再做静态学习。如果相信人的学习方式是高效的，那么智能体也应如此。你绝对希望Agent不浪费任何一次推理机会，因为每次推理都可能获得学习信号。这与强化学习的宏观哲学一致，但当前主流深度学习仍停留在模型参数更新阶段，很难实现在线学习设置。要真正实现这一点，需要一些新学习算法，例如基于非参数的方法更新。

问：这里是否涉及系统1和系统2的区别？

谷雨：没错。如果把非参数部分视为系统2，它更显式、更慢，但保留了向系统1转化的可能性——比如利用学到的非参数规则生成更多数据，正如林老师说的外脑到内脑的转化。

王琰：我也做了很多TTT（测试时训练）相关的工作。我认为，模型在预测下一个token时，关键在于学到每个token的更新梯度。未来我们一定能找到一种训练算法，让训练算法本身能够使模型学会每个token的梯度如何更新——这才是真正端到端的思想。

林涛：从模型训练视角看，它可以先从harness影响后训练，通过后训练提升模型性能后得到更强模型，更强模型又能反馈到前训练阶段，提升基模能力，形成闭环。所以它其实无时无刻不在进化，只是以不同尺度、不同方式在进化。

杨梦月：我也认为自进化是持续发生的，且延伸到所有环节。比如如何生成一条轨迹。当让GPT为某个问题生成答案时，它实际上在推理，推理过程本身就是创造与组合的过程，而这个过程就是在向环境、向人类提问。因此前向设计本身就包含了机制设计的进化。此外，获得奖励信号（如人类反馈）后，如何更新轨迹，也会推动整个流程逐步提升。

问：设计自己的Benchmark，是否也算AI自进化的一种标志？

杨梦月：我们能否构建一个增长式的Benchmark？甚至是一个增长式、自我进化的世界模型？目前很多Benchmark都是固定的，给定一个静态数据库进行测试。这样无论怎么测，总能找到模型在该固定数据集上表现良好。要通向AGI，我们需要动态评测——适应模型当前能力，做逐步增长式的评测。

王琰：我们早期做生成时根本没有Benchmark，全是人工测试。我不确定这件事能否用Benchmark来评测——静态的肯定不行。动态的能不能行也不确定，因为两个都是自进化的Agent，最后会不会又回到人工测试的老路上？但顺着这个思路，大概率它根本就不能用Benchmark来评测。

问：自动化评测方法会很难设计？

王琰：对。现在榜单上很多模型训练效果不错，但一上线，在Agent workflow里就会出现死循环等问题，必须用线上数据飞轮再训练才能改善。AI自进化后再怎么评测，根本无法确定。静态Benchmark已经有巨大局限性，开始自进化后，能否评测都是个问题。

谷雨：我很赞同王老师的观点。当一个系统足够复杂后，很难用简单指标量化——对人也是如此，你很难用一个指标评价一个人是好是坏。而且一旦被简单指标量化，就很容易被hack。但另一方面，我认为当前AI还没复杂到那个程度，Benchmark仍能指引我们前进。这里面有两个问题：第一，AI是否应该自己不断发现新Benchmark，还是由人类设计？我认为仍需要人类设计，因为Benchmark代表了目标，目标必须由人来设定。第二，人类给定Benchmark后，如何评测？对自进化来说，这与过去截然不同。过去的Benchmark有静态训练集和测试集，看最终准确率；但对自进化的AI而言，更重要的是趋势。这又回到我之前的观点——大模型的学习等于推理加长程记忆。每次推理都是学习机会，所以如果做Benchmark，应该采用二维曲线：横轴是完成任务的次数，纵轴是性能表现，理想状态下曲线应持续上升。

自进化评测背后更大的哲学问题是：智能到底是什么？我很喜欢一位AI研究员说过的一句话——智能不在于你会做多少事，而在于你是怎么会做这些事的。之前的评测主要看大模型最终掌握了什么技能，而自进化研究的是大模型如何掌握这些技能，即看学习过程。如何学习，才是自进化最核心的部分。

林涛：关于智能，我以前也被一句话触动：真正的智能，应该是我们关心的那些能力在单位时间内的增长速度。这在一定程度上反映了智能的本质。基于此，我认为模型与Benchmark应该协同进化。目前仍由人类定义Benchmark——看是否已到瓶颈，该不该设计更新更强的，然后基于新Benchmark找当前模型的漏洞，再推动训练。未来一个重要方向是，可以用半自动化的方式发现有意义的Benchmark，至少先把后训练环节跑通，让半自动发现的Benchmark来提升模型的初步能力。

03 AI会不会失控？

问：在AI自进化过程中，如何判断AI是否学偏了，甚至到了无法控制的程度？

王琰：说个悲观点的——几年之后，人类可能只能在没网络的地方生存了。现在AI进化速度太恐怖，AI失控不是什么遥远的事。安全问题不在于技术，而在于人性能否克制住。

林涛：这也是为什么我刚才强调要采用半自动化Benchmark的原因。一定要在有人参与的半自动化Benchmark下实现AI自进化，至少能施加一些约束，不让它突破我们想定义的标准。

杨梦月：我们所说的AI可信度、安全性、可解释性，本质上都要求其内部是可见的。比如大模型做一个决策，它到底为什么要这么做；做一个预测，为什么这么预测。所以我们正在做的一件事是，希望所有大模型组件之间能有一套规则直接呈现给人类，告诉你它为什么要做这个决策。白盒化以后会变得非常重要——想要控制AI，首先得知道它内部如何做决策。

问：要在RSI中实现安全控制，从因果角度来看还需要做哪些？

杨梦月：传统因果论基于概率统计学，其因果发现、因果推断方法本身就不适用于大模型时代。所以我们算是返璞归真，回到因果本身的定义上。比如三层因果结构阶梯——这些基本概念在RSI系统、基模或harness中应该转化为何种形式？该用什么样的约束条件去学习？这是当前努力的方向，但难度不小。为什么现在大家说世界模型、物理理解很难做？因为此前的物理信息机器学习、因果机器学习等方法，天然不适用于大模型的纵向扩展方案。所以我们必须回到这些方法的定义上，看看有哪些工具能解决问题。

谷雨：首先，AI可控性、能否受人类控制——这个我没什么想法。马云也说过，对他控制不了的事，他不愿多想。如果真来了，我也没法改变。所以我更想聊聊短期内更具体的问题：AI怎么变得更可控。除了刚才杨老师说的可解释性、因果关系发掘之外，还有两个维度：可靠性和可验证性。可靠性是指，模型或智能体做一件事，这次做对了，下次还得做对，不能是随机结果；可验证性是指，做错事时它得知道自己做错了，而不是交付的任务连对错都无法判断。我觉得这是短期内智能体落地很现实的两个指标。

问：在自进化过程中，AI的进化和人的进化如何协同？

林涛：就我个人而言，我已经用AI替代了大部分工作流。而且随着AI越来越强，我会用AI替代更多原有工作流。这确实提升了效率，也有时间让AI帮我思考更多东西——这在一定程度上算是我基于AI的某种进化。因为我是训模型的，在基模训练过程中也一定程度上提升了AI的进化，但我觉得还不太够。未来可以进一步探索，人如何更高效地进化，也让AI进化得更好。

杨梦月：作为教职人员，我能明显感觉到学生用AI工具越来越多。但现在一个重要问题是——你究竟能不能驾驭这些AI工具？因为AI可以进行大量内容输出，有时太相信它，对科研的信念和感知会绕到一个很奇怪的层面。基础打得扎实的学生，利用这些工具可以快速产出高质量成果；基础不扎实的学生，无法驾驭这些工具，反而会被误导。我们与DeepMind一些研究员交流过，他们内部鼓励使用AI工具，但他们说，能不能用好这些工具，很大程度上取决于人对工具的了解程度。当下很重要的是，在面对能力越来越强的AI工具时，不要放弃基本观念、基础知识的学习，也要知道一些事情在哲学层面是怎么推导过来的——这样AI给你错误信息时，你才能识别出来。

问：AI会倒逼人进化吗？

杨梦月：这是肯定的。我能明显感受到，AI正在让人形成一种分流——越是基础扎实的人，通过AI越能达到一个顶部的状态。如果你只是通过AI工具来完成一个任务，它最后出来的东西可能成了外表镀金、内核不太行的状态，但很多人还没意识到。

王琰：未来有杨老师所说的这种意识的人，会为自己的孩子创造一个无AI的环境，让孩子在里面成长。没这种意识的人，很可能完成作业就是他们的目标，最方便的方法就是用AI。我之所以有这种意识，是因为我发现我的实习生做事时，初期完成很快，但后面有很多问题他们发现不了。等我发现问他们，他们会说“王老师你等十分钟我告诉你为什么”（然后继续找AI给答案）。实际上，他们根本不知道整个项目在做什么，没有全局思维，跟不上我的节奏。如果没有AI，他们必须从零开始学习知识——比如我们基于deepseek研究，他们首先得把deepseek的论文看完。现在他们直接跟Claude说：你把论文看完，在LighteningIndex上实现一个MemoryIndex。既然他们这样完成工作，就导致我原来因为体力因素没法完成的工作，现在可以直接通过这种方式完成，不再需要这些实习生。本质原因：一是他们认知提升速度变慢了，二是这样的AI助手对我这种管理者反而效率更高。

谷雨：我和王老师很有共鸣。最近我们公司内部很喜欢段永平老师的一句话——慢就是快。你用vibe coding，冲得很快，但冲完之后理解没跟上，可能导致软件越来越失控，反而要花更多时间整理。对于这个问题，可以有两个视角：第一，如果把AI当工具看，人和工具向来是共同演进的关系——工具决定了人掌握什么能力。可能几千年前人需要的能力，现在已经不重要了，现代人能做的都是由当前工具决定的。从工具角度看，AI与人一定是共生关系，共同演进。第二，如果AI不是工具，而是像人一样平等的物种，甚至凌驾于人之上，那未来就不是共同进步了。可能未来人只要躺平就好，悲观点说，人要给AI打工。

04 RSI是新范式吗？

问：AI自进化是现有技术路径的延续，还是新的技术范式？

林涛：目前来看，AI很自然地走到了自进化这一步。只是现在Agent成熟了，让这件事变得更容易，但这不代表有核心差异。

王琰：我觉得它就是下一阶段。现在我们每个人用的模型都是共享的参数，但最终每个人一定会有自己独有的参数区。现在这件事不难做，只是infra不支持，而且太耗成本，但最终不会成为大障碍。未来可能每个人有个LoRA，怎么加载自己的LoRA，就会有新的付费模式——多付点钱加载的LoRA就大一些，免费用户只能用基模。如果这样的infra成立，每个人自己的LoRA执行个人任务，只要把前向推理的Delta规则做好，就是一个很好的自进化学习范式了。相当于基模已经建好，RL只是传统学习和监督学习之间的中间阶段，我们只需要给任务、奖励和环境。任务本身就是奖励机制——比如模型执行任务出了结果，我说“干得好”或“太蠢了”，这就自然成了奖励机制。这是不远的将来会发生的变化。

谷雨：关于这个问题，我觉得是量变引起质变。它可能既是现有技术范式的延续，又是新的机会。现在有一个共识是，具体量变的维度是AI所做任务的长程程度——随着AI做的任务越来越长程，就越接近一种新范式。最开始AI只能做单轮对话，后来发展到多轮、长文推理、Deep Research，最终可能会出现终身学习级别的。到那时候，天然就需要AI在做任务时不断发现不足、不断提升自己，自然就成了RSI或self improving。

杨梦月：self improving其实不是新概念，包括几年前LLM刚出来时，我们已经在做类似的工作，现在也被归类到了self improving的范畴。我也同意现在是量变引起质变的时刻，但我的评价标准不是长程任务——因为长程任务更多是规划层面的东西，还要有精致的操作。Agent是个很宽泛的概念，比如具身Agent，除了长程任务规划，还要完成每个动作的能力。它是综合的东西——是否能适应新系统，每个精致的操作能否顺利完成，每个过程都可以通过self improving来完成。但self improving只是一种技术手段，大家最终的目的都是通往AGI。

问：未来5-10年，RSI技术成熟、AI自进化可控可部署，它最先改变的会是什么？

林涛：我觉得会改变一切。包括你可能一出生就会有一个随身AI设备，帮你一起理解这个世界，并慢慢构建出属于你的数字人，参与到生活的方方面面。这基本上是5年内可以畅想的事实。

谷雨：我也同意改变是方方面面的，不会是某一个具体场景。我希望看到的改变是——未来5-10年，如果Agent能取代我就挺好的，因为创业挺累的，有点想躺平了。

王琰：更有可能发生的是资本家用AI取代了更多人。我感觉这是一个自然而然会发生的事。现在没被取代，是因为人类的工资还没有token贵。但我希望这一切不要发生。我希望AI可以让我们从一周五天工作制变成三天，一天八小时变成四小时，生产出的物品变得更便宜。

杨梦月：从一个哲学视角看，人类存活在这个世界上需要有价值。我每天醒来刷小红书或推特，又看到新东西，发现现在做的事又要被AI取代——我其实会担心，这种取代让我做的研究有什么意义？所以我觉得AI还得给人留一定的思考空间，让人类去思考自己对于世界的价值究竟是什么。我希望它进步得慢一点。

AI自进化后如何应对？科学家权威指南

01 什么是AI自进化？

02 AI先在哪个环节自进化？

03 AI会不会失控？

04 RSI是新范式吗？

相关阅读

最新教程

最新资讯