强化学习之父深度解读:大语言模型是错误起点
在近期一场深度对话中,强化学习奠基人、图灵奖得主 Richard Sutton 直接对当下主流技术路线提出质疑:大语言模型(LLM)或许从一开始就踏入了误区,本质上是一条无法通往通用智能的死胡同。
Sutton 认为,真正的智能必然源于经验驱动的学习——通过自主行动、环境观察与结果反馈不断修正策略,最终实现目标。相比之下,大语言模型的核心机制更接近对人类行为的统计模仿。它既没有独立的目标函数,也无法对外部世界的变化产生真正的“意外感知”并据此进行动态调整。
要构建真正具备可扩展性的智能系统,必须从经验学习的架构出发,而非将大语言模型作为起点。
在当今大模型热潮席卷行业之际,这一观点无异于一针清醒剂。它促使我们暂时跳出对模型“能力”的盲目追捧,重新审视“智能”的根本定义与实现路径。
本次 Sutton 与科技博主 Dwarkesh Patel 的对话信息密度极高,全程贯穿观点交锋。访谈共分为七个核心议题:
大语言模型(LLMs)是死胡同吗?人类会进行模仿学习吗?经验时代现有架构在分布外泛化能力差AI 领域的惊喜“苦涩的教训”在 AGI 之后仍然适用吗?AI 的接替以下为访谈第一部分「大语言模型是死胡同吗?」的精选节录,内容在保持原意基础上做了精炼编辑。
Dwarkesh Patel:Richard Sutton 是强化学习领域的开创者之一,时序差分学习、策略梯度等核心算法的发明人。正是因为这些贡献,您在今年获得了图灵奖——计算机科学界的最高荣誉。Richard,恭喜您。
Richard Sutton:谢谢你,Dwarkesh。
Dwarkesh Patel:第一个问题是:我和听众们更多是从大语言模型的角度理解 AI。如果换作强化学习的视角,我们可能会忽略哪些关键维度?
Richard Sutton:这确实是两种截然不同的视角,很容易导致双方失去对话基础。大语言模型目前热度极高,生成式 AI 整体也成为风口话题。但问题在于,这个领域很容易被潮流裹挟,从而忽视最本质的问题。在我看来,强化学习才是 AI 真正的根基。
什么是智能?归根结底,是对你所处世界的理解与掌控能力。强化学习关注的正是如何理解世界并采取最优行动,而大语言模型更多是在模仿人类行为,按人类的指令输出。它们并不真正思考“应该做什么”。
Dwarkesh Patel:您可能会觉得,要模仿互联网上数万亿个文本 token,模型必须先建立一个世界模型。事实上,这些大语言模型确实展现出了相当强的世界建模能力——它们可以说是我们目前创造的最好的世界模型。您认为还缺少什么?
Richard Sutton:你刚才说的,我大部分不同意。模仿人类语言,并不等同于构建世界模型。它只是在模仿那些已经拥有世界模型的人类。我不是刻意唱反调,但我必须质疑“大语言模型具备世界模型”这一说法。一个真正的世界模型,应当能够预测未来实际发生的事件。大语言模型能预测某个人会说出什么话,却无法预测世界上会发生什么事。
借用 Alan Turing 的话:我们真正需要的,是一台能从经验中学习的机器。所谓“经验”,就是你在真实生活中遭遇的情境——你采取行动,观察结果,然后从中学习。而大语言模型学习的是另一种模式:给定一个情境,它学习的是某个人的典型做法,并暗示你也应该照着做。
Dwarkesh Patel:关键点或许在于,有人认为模仿学习可以为模型提供一种先验知识,让它们在进入您所说的“经验时代”之前,就已经具备合理的解决问题能力。这样它们就能在一些场景下给出正确答案,后续的经验学习也可以在这个基础上进行。您认同这种看法吗?
Richard Sutton:不认同。我理解这是从大语言模型出发的观点,但我不认为这是个好观点。要成为“先验”,必须有一个真实的东西存在。先验知识应当基于实际知识。那么在大语言模型里,什么是实际知识?没有明确的定义。什么才是“好”的动作?
真正重要的是持续学习。“持续”意味着你必须在与世界的正常交互中不断学习。而在正常的互动过程中,必须有一种方式来判断什么是对的。
在大语言模型的框架里,是否存在判断“正确表达”的方式?当你发出某种表达时,无法获得关于正确表达的反馈,因为根本不存在“正确表达”的定义。它们没有目标。一句话和另一句话之间没有对错之分,无所谓正确。
它没有所谓“地面真值”(ground truth)。没有地面真值,就不可能有先验知识,因为先验知识本质上是关于“真相”的提示或初始信念。世间本无绝对真理,也没有绝对正确的言论。但在强化学习中,存在正确的话要说,有正确的动作要做——正确的事,就是能够获得奖励的事。
我们对“正确”有明确的定义,因此可以预先掌握或通过他人获取关于正确行动的知识。然后可以去验证它,因为我们知道什么才是真正正确的事。
举个简单的例子:当你尝试建立世界模型时,你会预测会发生什么,然后观察结果。这里面存在地面真值。但大语言模型没有这种地面真值,它们没法预测接下来真实会发生什么。
比如在一场对话中,大语言模型回复了某句话,它无法预测对方会如何回应,或者会回应什么。
Dwarkesh Patel:我认为它们可以。你直接问它们,“你预计用户可能会有什么回应?”它们会给出一个预测。
Richard Sutton:不,那只是对问题的回答,而不是有意义的预测。它们不会对结果感到惊讶。即便事实和它们所谓的“预测”不符,它们也不会因为发生了意料之外的事情而改变。要真正学到东西,它们必须做出调整。
Dwarkesh Patel:这种能力在某些上下文中确实存在。比如观察一个模型进行“思维链”(Chain of Thought)是很有趣的。假设它正在尝试解决一个数学问题,它会说:“好吧,我首先要用这种方法来解决这个问题。”然后它会把这个写出来,接着说:“哦等等,我刚刚意识到这在概念上是解决问题的错误方法,我要重新开始。”
这种上下文中的灵活性确实存在,对吧?您是否另有想法,还是说您只是认为需要将这种能力扩展到更大范围?
Richard Sutton:我只是说,它们根本无法对接下来会发生什么做出任何有意义的预测。它们不会对后续发展感到意外。即使发生变故,它们也不会根据事态发展做出任何调整。
Dwarkesh Patel:这不就是“下一个 token 预测”吗?预测接下来会是什么,然后根据意外情况进行更新?
Richard Sutton:不一样。下一个 token 预测的只是它们接下来要说什么,是一种输出动作,而不是对外部世界的预测。
关键还是在于,它们缺乏目标。对我来说,拥有目标是智能的本质。如果一个系统能实现目标,那它就是智能的。我赞同 John McCarthy 的定义:智能就是达成目标的计算能力。没有目标,它就只是一个行为系统,没有特别之处,算不上智能。你同意大语言模型没有目标吗?
Dwarkesh Patel:不,它们有目标。
Richard Sutton:目标是什么?
Dwarkesh Patel:下一个 token 预测。
Richard Sutton:那不是一个目标。它不能改变世界。预测 Token 本身,不会对 token 产生任何影响。
Dwarkesh Patel:是的,我同意。它不是一个关于外部世界的目标。
Richard Sutton:所以,那不是实质性的目标。你不能说一个只是静静预测、并因预测准确而满足的系统,是有目标的。
Dwarkesh Patel:我更想问的是,为什么您认为在大语言模型之上做强化学习不是一个可行的方向?毕竟我们已经能赋予这些模型解决复杂数学问题的目标。
例如,它们已经能在国际数学奥林匹克竞赛(IMO)上拿到金牌,这意味着它们确实在追求“正确解题”这个目标。为什么不能把这种能力扩展到其他领域呢?
Richard Sutton:数学问题是不同的。构建物理世界的模型,与在数学中演绎推理、计算结果,完全是两回事。经验世界必须通过交互去学习,需要从结果中得到反馈。而数学更偏向计算,更像是标准的规划,目标比较清晰:找到证明。某种意义上,它们确实被赋予了“找到证明”的目标。
Dwarkesh Patel:您在 2019 年写了一篇题为《惨痛的教训》(The Bitter Lesson)的文章,这也许是 AI 历史上最具影响力的文章之一。如今,人们正把它作为扩大大语言模型规模的依据——在他们看来,这是我们目前唯一能找到的可扩展方案,就是用海量算力去探索世界。有趣的是,您却认为大语言模型并没有真正吸取“苦涩的教训”。
Richard Sutton:大语言模型是否是“苦涩的教训”的一个案例,这是一个有趣的问题。它们显然是一种利用大规模计算的方法,这种计算可以随着互联网数据的极限扩展。但它们也是一种融入大量人类知识的方式。这确实是一个值得探讨的问题——既涉及社会学层面,也关乎产业未来。它们是否会触及数据极限,最终被那些仅凭经验而非人类知识就能获取更多数据的新事物所取代?
在某些方面,这确实是“苦涩的教训”的典型案例。我们向大语言模型输入的人类知识越多,它们的表现就越出色。这令人欣慰。然而,我期望会出现能够从经验中学习的系统。这种系统可以表现得更好,也更具可扩展性。到那时,人类知识驱动的系统终将被纯粹依靠经验与计算训练的系统所取代——这又将构成“苦涩的教训”的另一个例证。
Dwarkesh Patel:在我看来,这好像不是核心分歧。我认为那些人也认同,未来绝大多数的计算将来自从经验中学习。他们只是认为,支撑这种学习的基础架构——即为了实现未来经验学习或在职学习而注入计算能力的起点——将是大语言模型。我还是不明白,为什么这根本就是错误的起点,为什么我们需要一个全新的架构来开始进行经验上的、持续的学习?为什么我们不能从大语言模型开始做这件事呢?
Richard Sutton:在每一个“苦涩的教训”的案例中,你都可以先从人类知识入手,然后再去做那些可扩展的事情。理论上,这并不算错误。但实践中,它几乎总是行不通。因为人们会被困在人类知识驱动的方法中,很难跳出来。最终,这些方法总会被真正可扩展的途径超越。
Dwarkesh Patel:那么,真正可扩展的方法是什么?
Richard Sutton:就是从经验中学习。尝试各种做法,观察哪些有效。不需要有人告诉你。前提是,有一个目标——没有目标,就没有对错或好坏之分。而大语言模型试图在没有目标或优劣判断的情况下运作。这,就是错误的起点。
