AI自进化后如何应对?科学家权威指南

2026-06-16阅读 0热度 0
科学家

大约一周前,正在筹备上市的Anthropic在官方博客发布了一篇题为《When AI builds itself》的文章。这篇博文再次将AI安全议题推至舆论中心。

Anthropic在文中探讨的核心问题被概括为“AI自进化”,其核心论断直截了当:AI已开始主动参与自身更强大版本的构建,进化速度远超我们此前的预期。

严格来说,AI自进化这个概念并不新鲜。从AI技术诞生之初,研究人员就在探索如何让系统自主迭代——类似具身智能领域正在设想的“用机器人制造机器人”理念。

耐人寻味的是,AI科学家一方面对自进化能力感到不安,另一方面却在全力研究甚至主动利用这一能力。

以Meta裁员风波中备受关注的田渊栋(原Meta FAIR团队研究总监)为例,他于今年年初宣布创业,成立了Recursive Superintelligence(RSI),目标直指AI自进化。这家公司不久前刚完成6.5亿美元融资,估值飙升至46.5亿美元(约合315亿元人民币),成为硅谷巨头们热捧的明星团队。

那么,究竟什么是AI自进化?它会失控吗?人类又该如何与AI共存?

今年的智源大会上,这一主题成为核心议题。我们聚焦四位年轻AI科学家关于该议题的思考与预判。通过他们的视角,或许能看清AI自进化的演进方向,也能在焦虑中找到具体应对策略。

这四位分别是:西湖大学工学院人工智能系特聘研究员林涛、NeoCognition联合创始人谷雨、前腾讯混元Frontier专家研究员王琰、以及伦敦大学学院博士、布里斯托大学助理教授杨梦月。

以下是他们对话内容的整理(在不改变原意的前提下进行归纳与提炼):

01 什么是AI自进化?

问:现在许多AI系统会自我反思、修改指令(Prompt),看起来都带点自我改进的意味。要严格定义的话,什么才算真正的AI自进化?

林涛:我认为自进化应该具有多层次性。它可以表现为“外脑”的进化,也可以表现为“内脑”的进化。关键在于,AI能自主识别自身局限,并同时进化外脑与内脑;或者在进化外脑的过程中,将更多外部能力内化,进而推动内脑进化。

谷雨:在我看来,RSI(递归自我进化)最重要的两个维度是Proactiveness(主动性)和Learning(学习)。Learning解决的是如何让AI具备可靠且持续的在线学习算法;而自进化则要求智能体明确自身的进化方向。因此,需要分别攻克两个问题:一是“what”层面的元认知——系统要知道自己缺什么、需要什么、如何选择;二是“how”层面——具体的学习算法如何实现。

王琰:至少在当下这个时间点,与传统SFT、RL相比,如果系统能降低对人类的依赖程度,就已经算是实现了自进化。

杨梦月:目前大家讨论的RSI,实际是在self improvement基础上再推进一步。它不仅仅是能力增强,还要求“进化能力”本身也能持续进化。这里的关键在于Recursive公司联合创始人Jeff Clune与Tim Rocktaschel所研究的“Open-endedness”方向。在一个开放世界中,智能体是否具备自我提问的能力?能否发现自己的知识边界、系统边界、记忆边界?它必须能突破既有边界去提问。要实现脱离人类的自我进化(包括进化能力的迭代),提问能力至关重要。

问:在当前节点,AI最有价值且最可能率先成熟的自进化环节是什么?

王琰:不知道大家有没有注意到,2025年1月之后模型的迭代速度明显加快。原因很简单:基模领域那些最熟悉AI能力上限的人,已经在代码层面被替代——这已是基模训练中正在发生的现实。Claude、GPT以及国内各基模,迭代速度都在提升。虽不能完全称之为自进化,但确实有AI在参与AI的迭代。至于哪个领域最先成熟,我最直接的感受是基模训练本身——尽管旁边有人类设定方向,本质上它已经在自进化。

问:如果不调整模型参数,只进化其他组成部分,基模能否实现足够强的能力跃迁?

王琰:当然可以。哪怕只是改一下Prompt,效果也可能天差地别。例如,我曾交给实习生一项任务,他们做得不好,我检查发现只是Prompt写得太差。我重写了一个更清晰的Prompt,写清规则,效果立竿见影。既然我能做到,比我更高维度的硅基智能体当然能做得更好,即使不改变模型参数。

问:林老师怎么看?

林涛:这应该是一个迭代过程。首先需要更好的harness(驾驭工程),也就是外脑,充分释放当前模型的上限;随着更多人拥有自己的harness,这些程序又可能被用来训练更强的基模;在更强基模基础上,再发展出更强的harness、更好的外脑——这本身就是一个迭代循环。

问:那你认为当前整合资源做哪一块最容易成熟?

林涛:做harness最容易。

谷雨:我更倾向于用统一视角来看待harness和skill。从统一视角出发,它们都属于长期记忆,只是角度不同:harness是元认知层面的长期记忆,skill更多是工作流或过程性知识的长期记忆,模型参数则偏向直觉层面的长期记忆。如果问先做哪个,从学术研究角度很难定论——它们都重要且相互促进。但站在公司角度,更容易起步的仍是harness——有了harness就能产出产品,有产品就有用户,有用户就有数据和闭环。

杨梦月:我自己更关注记忆层面的进化,因为我的研究方向是规则理解与因果推理。现在大家能感受到,模型能力越来越强,逐渐在覆盖harness的功能,不断吞噬harness的边界并触及上限。因此未来发展很难预测,可能基模越强,harness方向的提升空间就越微乎其微。

02 AI先在哪个环节自进化?

问:AI自进化在什么时间点发生最为合适?

谷雨:关于harness我先补充一点:虽然它可能被模型进步蚕食,但有些模块必然保留,比如保证模型安全性与可验证性的模块——这是概率模型永远无法取代的。至于自进化发生的时机,我认为可以理解为“Learning加长程记忆”。对人而言,每一次推理、每一次解决问题都是一次学习机会——我们不会等到收集一大堆问题后再做静态学习。如果相信人的学习方式是高效的,那么智能体也应如此。你绝对希望Agent不浪费任何一次推理机会,因为每次推理都可能获得学习信号。这与强化学习的宏观哲学一致,但当前主流深度学习仍停留在模型参数更新阶段,很难实现在线学习设置。要真正实现这一点,需要一些新学习算法,例如基于非参数的方法更新。

问:这里是否涉及系统1和系统2的区别?

谷雨:没错。如果把非参数部分视为系统2,它更显式、更慢,但保留了向系统1转化的可能性——比如利用学到的非参数规则生成更多数据,正如林老师说的外脑到内脑的转化。

王琰:我也做了很多TTT(测试时训练)相关的工作。我认为,模型在预测下一个token时,关键在于学到每个token的更新梯度。未来我们一定能找到一种训练算法,让训练算法本身能够使模型学会每个token的梯度如何更新——这才是真正端到端的思想。

林涛:从模型训练视角看,它可以先从harness影响后训练,通过后训练提升模型性能后得到更强模型,更强模型又能反馈到前训练阶段,提升基模能力,形成闭环。所以它其实无时无刻不在进化,只是以不同尺度、不同方式在进化。

杨梦月:我也认为自进化是持续发生的,且延伸到所有环节。比如如何生成一条轨迹。当让GPT为某个问题生成答案时,它实际上在推理,推理过程本身就是创造与组合的过程,而这个过程就是在向环境、向人类提问。因此前向设计本身就包含了机制设计的进化。此外,获得奖励信号(如人类反馈)后,如何更新轨迹,也会推动整个流程逐步提升。

问:设计自己的Benchmark,是否也算AI自进化的一种标志?

杨梦月:我们能否构建一个增长式的Benchmark?甚至是一个增长式、自我进化的世界模型?目前很多Benchmark都是固定的,给定一个静态数据库进行测试。这样无论怎么测,总能找到模型在该固定数据集上表现良好。要通向AGI,我们需要动态评测——适应模型当前能力,做逐步增长式的评测。

王琰:我们早期做生成时根本没有Benchmark,全是人工测试。我不确定这件事能否用Benchmark来评测——静态的肯定不行。动态的能不能行也不确定,因为两个都是自进化的Agent,最后会不会又回到人工测试的老路上?但顺着这个思路,大概率它根本就不能用Benchmark来评测。

问:自动化评测方法会很难设计?

王琰:对。现在榜单上很多模型训练效果不错,但一上线,在Agent workflow里就会出现死循环等问题,必须用线上数据飞轮再训练才能改善。AI自进化后再怎么评测,根本无法确定。静态Benchmark已经有巨大局限性,开始自进化后,能否评测都是个问题。

谷雨:我很赞同王老师的观点。当一个系统足够复杂后,很难用简单指标量化——对人也是如此,你很难用一个指标评价一个人是好是坏。而且一旦被简单指标量化,就很容易被hack。但另一方面,我认为当前AI还没复杂到那个程度,Benchmark仍能指引我们前进。这里面有两个问题:第一,AI是否应该自己不断发现新Benchmark,还是由人类设计?我认为仍需要人类设计,因为Benchmark代表了目标,目标必须由人来设定。第二,人类给定Benchmark后,如何评测?对自进化来说,这与过去截然不同。过去的Benchmark有静态训练集和测试集,看最终准确率;但对自进化的AI而言,更重要的是趋势。这又回到我之前的观点——大模型的学习等于推理加长程记忆。每次推理都是学习机会,所以如果做Benchmark,应该采用二维曲线:横轴是完成任务的次数,纵轴是性能表现,理想状态下曲线应持续上升。

自进化评测背后更大的哲学问题是:智能到底是什么?我很喜欢一位AI研究员说过的一句话——智能不在于你会做多少事,而在于你是怎么会做这些事的。之前的评测主要看大模型最终掌握了什么技能,而自进化研究的是大模型如何掌握这些技能,即看学习过程。如何学习,才是自进化最核心的部分。

林涛:关于智能,我以前也被一句话触动:真正的智能,应该是我们关心的那些能力在单位时间内的增长速度。这在一定程度上反映了智能的本质。基于此,我认为模型与Benchmark应该协同进化。目前仍由人类定义Benchmark——看是否已到瓶颈,该不该设计更新更强的,然后基于新Benchmark找当前模型的漏洞,再推动训练。未来一个重要方向是,可以用半自动化的方式发现有意义的Benchmark,至少先把后训练环节跑通,让半自动发现的Benchmark来提升模型的初步能力。

03 AI会不会失控?

问:在AI自进化过程中,如何判断AI是否学偏了,甚至到了无法控制的程度?

王琰:说个悲观点的——几年之后,人类可能只能在没网络的地方生存了。现在AI进化速度太恐怖,AI失控不是什么遥远的事。安全问题不在于技术,而在于人性能否克制住。

林涛:这也是为什么我刚才强调要采用半自动化Benchmark的原因。一定要在有人参与的半自动化Benchmark下实现AI自进化,至少能施加一些约束,不让它突破我们想定义的标准。

杨梦月:我们所说的AI可信度、安全性、可解释性,本质上都要求其内部是可见的。比如大模型做一个决策,它到底为什么要这么做;做一个预测,为什么这么预测。所以我们正在做的一件事是,希望所有大模型组件之间能有一套规则直接呈现给人类,告诉你它为什么要做这个决策。白盒化以后会变得非常重要——想要控制AI,首先得知道它内部如何做决策。

问:要在RSI中实现安全控制,从因果角度来看还需要做哪些?

杨梦月:传统因果论基于概率统计学,其因果发现、因果推断方法本身就不适用于大模型时代。所以我们算是返璞归真,回到因果本身的定义上。比如三层因果结构阶梯——这些基本概念在RSI系统、基模或harness中应该转化为何种形式?该用什么样的约束条件去学习?这是当前努力的方向,但难度不小。为什么现在大家说世界模型、物理理解很难做?因为此前的物理信息机器学习、因果机器学习等方法,天然不适用于大模型的纵向扩展方案。所以我们必须回到这些方法的定义上,看看有哪些工具能解决问题。

谷雨:首先,AI可控性、能否受人类控制——这个我没什么想法。马云也说过,对他控制不了的事,他不愿多想。如果真来了,我也没法改变。所以我更想聊聊短期内更具体的问题:AI怎么变得更可控。除了刚才杨老师说的可解释性、因果关系发掘之外,还有两个维度:可靠性和可验证性。可靠性是指,模型或智能体做一件事,这次做对了,下次还得做对,不能是随机结果;可验证性是指,做错事时它得知道自己做错了,而不是交付的任务连对错都无法判断。我觉得这是短期内智能体落地很现实的两个指标。

问:在自进化过程中,AI的进化和人的进化如何协同?

林涛:就我个人而言,我已经用AI替代了大部分工作流。而且随着AI越来越强,我会用AI替代更多原有工作流。这确实提升了效率,也有时间让AI帮我思考更多东西——这在一定程度上算是我基于AI的某种进化。因为我是训模型的,在基模训练过程中也一定程度上提升了AI的进化,但我觉得还不太够。未来可以进一步探索,人如何更高效地进化,也让AI进化得更好。

杨梦月:作为教职人员,我能明显感觉到学生用AI工具越来越多。但现在一个重要问题是——你究竟能不能驾驭这些AI工具?因为AI可以进行大量内容输出,有时太相信它,对科研的信念和感知会绕到一个很奇怪的层面。基础打得扎实的学生,利用这些工具可以快速产出高质量成果;基础不扎实的学生,无法驾驭这些工具,反而会被误导。我们与DeepMind一些研究员交流过,他们内部鼓励使用AI工具,但他们说,能不能用好这些工具,很大程度上取决于人对工具的了解程度。当下很重要的是,在面对能力越来越强的AI工具时,不要放弃基本观念、基础知识的学习,也要知道一些事情在哲学层面是怎么推导过来的——这样AI给你错误信息时,你才能识别出来。

问:AI会倒逼人进化吗?

杨梦月:这是肯定的。我能明显感受到,AI正在让人形成一种分流——越是基础扎实的人,通过AI越能达到一个顶部的状态。如果你只是通过AI工具来完成一个任务,它最后出来的东西可能成了外表镀金、内核不太行的状态,但很多人还没意识到。

王琰:未来有杨老师所说的这种意识的人,会为自己的孩子创造一个无AI的环境,让孩子在里面成长。没这种意识的人,很可能完成作业就是他们的目标,最方便的方法就是用AI。我之所以有这种意识,是因为我发现我的实习生做事时,初期完成很快,但后面有很多问题他们发现不了。等我发现问他们,他们会说“王老师你等十分钟我告诉你为什么”(然后继续找AI给答案)。实际上,他们根本不知道整个项目在做什么,没有全局思维,跟不上我的节奏。如果没有AI,他们必须从零开始学习知识——比如我们基于deepseek研究,他们首先得把deepseek的论文看完。现在他们直接跟Claude说:你把论文看完,在LighteningIndex上实现一个MemoryIndex。既然他们这样完成工作,就导致我原来因为体力因素没法完成的工作,现在可以直接通过这种方式完成,不再需要这些实习生。本质原因:一是他们认知提升速度变慢了,二是这样的AI助手对我这种管理者反而效率更高。

谷雨:我和王老师很有共鸣。最近我们公司内部很喜欢段永平老师的一句话——慢就是快。你用vibe coding,冲得很快,但冲完之后理解没跟上,可能导致软件越来越失控,反而要花更多时间整理。对于这个问题,可以有两个视角:第一,如果把AI当工具看,人和工具向来是共同演进的关系——工具决定了人掌握什么能力。可能几千年前人需要的能力,现在已经不重要了,现代人能做的都是由当前工具决定的。从工具角度看,AI与人一定是共生关系,共同演进。第二,如果AI不是工具,而是像人一样平等的物种,甚至凌驾于人之上,那未来就不是共同进步了。可能未来人只要躺平就好,悲观点说,人要给AI打工。

04 RSI是新范式吗?

问:AI自进化是现有技术路径的延续,还是新的技术范式?

林涛:目前来看,AI很自然地走到了自进化这一步。只是现在Agent成熟了,让这件事变得更容易,但这不代表有核心差异。

王琰:我觉得它就是下一阶段。现在我们每个人用的模型都是共享的参数,但最终每个人一定会有自己独有的参数区。现在这件事不难做,只是infra不支持,而且太耗成本,但最终不会成为大障碍。未来可能每个人有个LoRA,怎么加载自己的LoRA,就会有新的付费模式——多付点钱加载的LoRA就大一些,免费用户只能用基模。如果这样的infra成立,每个人自己的LoRA执行个人任务,只要把前向推理的Delta规则做好,就是一个很好的自进化学习范式了。相当于基模已经建好,RL只是传统学习和监督学习之间的中间阶段,我们只需要给任务、奖励和环境。任务本身就是奖励机制——比如模型执行任务出了结果,我说“干得好”或“太蠢了”,这就自然成了奖励机制。这是不远的将来会发生的变化。

谷雨:关于这个问题,我觉得是量变引起质变。它可能既是现有技术范式的延续,又是新的机会。现在有一个共识是,具体量变的维度是AI所做任务的长程程度——随着AI做的任务越来越长程,就越接近一种新范式。最开始AI只能做单轮对话,后来发展到多轮、长文推理、Deep Research,最终可能会出现终身学习级别的。到那时候,天然就需要AI在做任务时不断发现不足、不断提升自己,自然就成了RSI或self improving。

杨梦月:self improving其实不是新概念,包括几年前LLM刚出来时,我们已经在做类似的工作,现在也被归类到了self improving的范畴。我也同意现在是量变引起质变的时刻,但我的评价标准不是长程任务——因为长程任务更多是规划层面的东西,还要有精致的操作。Agent是个很宽泛的概念,比如具身Agent,除了长程任务规划,还要完成每个动作的能力。它是综合的东西——是否能适应新系统,每个精致的操作能否顺利完成,每个过程都可以通过self improving来完成。但self improving只是一种技术手段,大家最终的目的都是通往AGI。

问:未来5-10年,RSI技术成熟、AI自进化可控可部署,它最先改变的会是什么?

林涛:我觉得会改变一切。包括你可能一出生就会有一个随身AI设备,帮你一起理解这个世界,并慢慢构建出属于你的数字人,参与到生活的方方面面。这基本上是5年内可以畅想的事实。

谷雨:我也同意改变是方方面面的,不会是某一个具体场景。我希望看到的改变是——未来5-10年,如果Agent能取代我就挺好的,因为创业挺累的,有点想躺平了。

王琰:更有可能发生的是资本家用AI取代了更多人。我感觉这是一个自然而然会发生的事。现在没被取代,是因为人类的工资还没有token贵。但我希望这一切不要发生。我希望AI可以让我们从一周五天工作制变成三天,一天八小时变成四小时,生产出的物品变得更便宜。

杨梦月:从一个哲学视角看,人类存活在这个世界上需要有价值。我每天醒来刷小红书或推特,又看到新东西,发现现在做的事又要被AI取代——我其实会担心,这种取代让我做的研究有什么意义?所以我觉得AI还得给人留一定的思考空间,让人类去思考自己对于世界的价值究竟是什么。我希望它进步得慢一点。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策