LeCun与Hinton激辩：大语言模型未来走向深度解析

2026-05-19阅读 0热度 0

翻译

图灵奖得主Yann LeCun近期在一档播客中的深度对话，清晰地勾勒出他与当前AI主流路线的根本分歧。这位Meta前首席AI科学家首次系统阐述了他离开巨头公司、创立AMI（Advanced Machine Intelligence）背后的技术哲学与行业判断。

访谈中，LeCun观点犀利。他不仅评价了昔日同僚Hinton与Bengio的理念转变，更深入剖析了为何大语言模型（LLM）无法通向通用人工智能（AGI），并详细解释了其押注的“世界模型”架构将如何重塑智能系统的未来。

LLM为何不是智能的终极路径

主持人首先切入核心：你曾因坚信神经网络而逆流前行，最终被历史证明。如今你再次站在主流对立面，质疑LLM与生成式架构，并为此创立新公司。根本原因是什么？

LeCun首先明确，他并非否定LLM的实用价值。LLM是众多优秀AI产品的基石，他本人也在使用，它们在其设计范畴内表现卓越。

但问题的本质在于，LLM并非通往人类乃至动物水平智能的路径。语言是一种特殊且高度结构化的信息载体，恰好契合当前架构。然而，真实世界是高维、连续且充满噪声的复杂系统，其复杂程度与文本数据不在同一量级。

LeCun指出，他职业生涯的后期，尤其是近五六年，核心工作就是攻克现实世界的AI问题，并在近两年取得关键突破。到去年底，他意识到Meta已非推进此项研究的理想环境，因此选择离开并创立AMI，其使命正是构建“面向真实世界的AI”。

这似乎折射出一种行业现象：越来越多的研究者带着坚信的技术方向，从大公司或实验室出走创业。LeCun认为，这背后是一种结构性矛盾。

一种模式是在公司内部进行多方向的探索性研究。一旦某个方向显现成功迹象，需要规模化推进时，性质就变了——它从研究转向工程与产品化。Meta内部多次上演此情景。

例如，FAIR开发的Llama 1曾前景广阔，Meta为此专门成立Gen AI部门进行产品化，后续推出了Llama 2、3、4。然而，Llama 4的表现未达预期，引发了管理层重组。过去一年，Meta在行业竞争中感到落后，战略全面转向追赶，其副作用便是大量探索性研究的优先级被降低。

LeCun自己的JEPA与世界模型研究虽未直接叫停，但他清晰地看到，公司的其他部分已完全聚焦于LLM。这让他明白，Meta已非实践其技术蓝图的理想之地。他们的研究已取得初步成果，需要从纯研究转向技术开发与产品化。同时他们也意识到，许多潜在应用场景（如先进制造业）并非Meta的核心兴趣所在。

世界模型：智能的预测与规划核心

那么，LeCun所倡导的“世界模型”究竟指什么？目前也有其他团队从生成式角度切入世界模型，例如Google的Genie、各类视频生成模型，以及李飞飞团队的3D空间模型。LeCun的JEPA架构与这些方法有何本质区别？

LeCun指出，“世界模型”正在成为一个流行词汇。他认为，像视觉-语言-动作（VLA）这类方法已被证明难以走通，因其可靠性不足且依赖海量训练数据。

从根本上说，世界模型赋予智能体预测自身行为后果的能力。很难想象一个不具备此能力的系统能被称为智能。人类若不计后果行动，会被视为鲁莽。因此，世界模型的核心是预测行为后果，并据此规划一系列行动以达成目标。这个过程依赖于规划、推理、搜索与优化，而非像LLM那样进行逐个token的自回归预测。

LLM缺乏预测行为后果的能力，也没有真正的规划能力，因为它的“推理”只是预测下一个token，而非在行动空间中进行搜索。因此，智能行为需要三个关键支柱：

预测行为后果的能力。
通过优化与搜索进行规划的能力。
在抽象表征层面进行预测的机制。

他举例说明，我们无法在像素级别精确预测一个水瓶被推倒后的运动轨迹，但我们大脑中的世界模型能在抽象的表征层面进行预测。这正是JEPA（联合嵌入预测架构）的设计哲学。

主持人追问，此架构是否深受人脑启发？LeCun承认，其灵感确实源于认知科学，特别是心理学中的“系统二”思维——那种深思熟虑、涉及想象与后果预测的慢思考，与“系统一”的本能反应相区别。然而，从认知科学概念到具体的神经网络架构，其间仍有巨大的工程鸿沟需要跨越。

LeCun对通过预测构建世界模型的探索由来已久。大约五年前，他意识到所有成功学习了良好图像与视频表征的架构，都是非生成式的。像变分自编码器（VAE）这类直觉上自然的方法，效果并不理想。而另一类技术，如去噪自编码器（遵循MAE、BERT的思路），在FAIR投入大量算力尝试后，结果也令人失望。

与此同时，另一条技术路线展现了曙光：非生成式架构。具体而言，取一张图像，对其施加某种损坏，将原始版本与损坏版本分别送入编码器，然后使用一个预测器，从损坏版本的表征去预测原始版本的表征。这就是JEPA的核心：一个编码器对一种观察进行编码，另一个编码器对另一种观察进行编码，再用一个预测器进行跨表征的预测。

当前具身智能系统的根本局限

话题转向机器人领域。如今许多机器人公司发布的演示视频愈发令人印象深刻，似乎展现了某种规划与推理能力。LeCun如何看待这些进展？

他肯定了真实的进步，但也指出了根本性瓶颈：这些系统严重依赖海量数据训练，无论是通过遥操作还是人工演示收集，主要采用模仿学习，辅以少量仿真中的强化学习。这种方式成本高昂、泛化性脆弱，且每个新任务都需要单独收集数据。

而一个拥有世界模型的系统，能够预测动作结果，可以直接规划行动来完成全新任务，无需针对该任务进行专门训练。世界模型能带来大得多的泛化能力，用更少的训练数据覆盖更广泛的任务谱系。其终极目标是实现“零样本”解决新任务，就像人类或动物那样，仅需极少甚至无需训练数据就能应对大量问题。

他举了一个鲜明的对比：一个17岁的青少年学会开车只需要十几二十个小时。而我们拥有数百万小时的驾驶数据，却至今未能实现真正的全自动驾驶（L5）。模仿学习连“驾驶”这单一任务都未能攻克。

对于利用视频模型生成合成数据来改善机器人表现的想法，LeCun再次回到那个根本问题：为何人类的学习效率如此之高？如果我们破解了这个谜题，就不再需要依赖生成海量数据。或许仍然需要在仿真中训练，但绝不需要现有系统那样庞大的数据量和试错次数。

硅谷的趋同效应与独立道路

主持人提出了一个商业视角的疑问：如果你是OpenAI，知道继续扩大模型规模就能持续获得性能提升，那么从商业角度看，确实缺乏动力去追求数据效率更高的路径。

LeCun表示，其他公司也同样缺乏动力去做不同的事，因为谁都承受不起落后的代价。这形成了一种“硅谷的羊群效应”，所有人都在同一条赛道上内卷。这也正是他将AMI总部设在巴黎、美国办公室设在纽约而非硅谷的原因之一——为了保持思维的独立性与技术路线的自主性。

谈到AMI最令人兴奋的应用方向，LeCun重申是“面向真实世界的AI”，具体包括家用机器人与L5级自动驾驶。不过他也坦言，家用机器人仍需数年时间，因为目前尚无公司真正掌握如何让机器人具备足够的“常识”与“智能”。短期内，工业领域存在海量应用场景，例如对喷气发动机、化工厂、精密生产线甚至细胞生物学过程等复杂动态系统进行建模与控制，这些传统方法难以应对的领域，正是世界模型可以大显身手的地方。

当被问及JEPA模型未来几年的发展时，LeCun给出了一个坚定而略带调侃的回答：“五年内，完全统治世界。”随后他解释这是引用了Linus Torvalds当年关于Linux的豪言，并严肃表示，他确实认为JEPA类世界模型是未来智能系统的蓝图。LLM仍将占有一席之地，但主要是作为语言接口。他们正在设计的，是“能思考的系统”。这些系统最初可能不会说话或聆听，但它们会思考，而后再叠加语言能力。

主持人追问，需要多久大家才会意识到他这次又是对的？LeCun认为，这会比预期来得更快。许多人已经开始意识到VLA路径行不通，LLM处理不了真实世界的复杂数据。范式转换的认知正在发生，到2027年初，这将变得对所有人都显而易见。

Tapestry：构建开放的知识与文化平台

除了AMI，LeCun还在推进另一个名为Tapestry的项目。他解释说，这与AMI Labs的技术方向略有不同。

随着人们越来越多地使用AI助手，传统搜索引擎的使用量在下降。如果Meta等公司的智能设备计划（如智能眼镜）普及，那么几乎所有的信息获取都将通过AI助手中介完成。这就引出了一个关键问题：如果你来自中美以外的国家，使用的AI助手由硅谷或北京的公司打造，那么你的语言、文化、价值观可能无法得到充分理解与体现。

Tapestry旨在解决这个问题。其核心是一个基于开放、免费基础模型的平台（类似Llama的风格），任何人都可以对其进行微调，以适应特定的语言和文化。这是一个全球贡献者共同训练全球模型的构想，本质上是构建一个全世界知识与文化的存储库。贡献者提供数据和算力，但保留对数据的控制权，他们贡献的是参数向量，通过联邦学习的方式，最终汇聚成一个开放的共识模型。

LeCun相信，有一种自然的力量会推动此事发生。AI正在快速成为一个平台，而平台有走向开放的自然趋势。他回顾历史指出，Linux、互联网软件基础设施、无线网络等技术，最初都是私有的，但最终都被开源方案所取代。在他看来，今天的OpenAI、Anthropic，就像是当年的Sun Microsystems和HP-UX。

这背后隐含着他对于这些闭源模型能力上限的判断——开源迟早能追上来。他认为，公开可用的、有价值的文本数据已经耗尽，这些公司正在转向购买商业版权数据或使用合成数据。尽管过去几年LLM在数学和代码等领域取得了令人印象深刻的成果，但LeCun指出，这两个领域的共同点在于，语言本身就是推理的载体。LLM擅长操作形式化的语言（如数学证明、代码生成），但它不擅长创造性的行为，比如提出新概念、新定义，或进行软件架构设计。LLM改变了人类的角色，让我们得以向更抽象的层级迈进，专注于决定“建造什么”，而将“建造”的过程交由LLM辅助完成。

那么，LLM需要做到什么才能改变LeCun的看法？他的答案是：零样本的智能体能力。即面对一个全新的、未经训练的问题，它能否完成？除非这个系统具备预测行为后果并据此进行规划的能力。也许一个被大幅增强、附加了搜索和规划能力的LLM可以做到。目前解决数学问题的LLM已经在做类似的事情，在token空间中进行搜索。但LeCun强调，JEPA所做的规划，是在抽象的“思维”空间，而非token空间。

主持人提出，即便效率较低，但LLM在token空间能完成的工作，已经覆盖了经济活动中很大一部分。LeCun同意这一点，并再次澄清他的立场：LLM擅长什么就用它做什么，这完全没问题。他只是断言，LLM不是通往AGI的道路。而通用AGI所能覆盖的领域，将是无比巨大的。

与Hinton和Bengio的分歧根源

作为三位共享图灵奖的“AI先驱”，LeCun与Hinton、Bengio在LLM的潜力与风险上看法迥异。这种分歧从何而来？

LeCun明确表示：“不是我改了主意，是他们改了主意。”他回忆说，Hinton此前从未特别关注过LLM，直到2024年GPT-4出现，他似乎突然顿悟，认为这些系统已非常接近人类智能，甚至可能有主观体验。

LeCun推测了Hinton的思考逻辑：人类皮层约有160亿个神经元，如果大脑通过某种机制实现近似反向传播的功能，可能需要10个真实神经元来模拟一个反向传播神经元，那么人类皮层就相当于16亿个神经元。而GPT-4的参数规模已接近这个数字，因此Hinton可能认为它已接近人类智能水平。

LeCun对此完全不认同。他觉得Hinton像是“想宣布胜利然后退休”，可以四处演讲谈论AI的危险。不过他也注意到，Hinton近期关于AI危险的声音比一两年前小了许多，可能意识到了几件事：当前的LLM没那么聪明；达到人类智能仍需概念性突破；未来的系统蓝图将与LLM大不相同，并且很可能可控。

LeCun说，他早在几年前就阐述过这些观点，Hinton是最近才意识到。Bengio的情况也类似。他认为两人真正担忧的，是社会体系能否确保AI的好处被最大化，并防止其加剧不平等，这更多是关于“坏的使用者”的问题，而非AI统治世界的末日场景。

但主持人指出，仅凭今天的LLM，风险已然存在。LeCun承认这一点，但他不认为风险像某些人声称的那样具有末日性质，尤其不认同Anthropic试图利用恐惧来推动AI监管的做法。他认为对方或许真心相信，但背后也有商业考量。

谈到新架构的安全性，LeCun说了一句可能让Meta前同事不太高兴的话：LLM本质上无法做到可靠，因为你无法阻止它们产生幻觉。在代码等可以验证输出的领域，LLM表现出色，但并非所有事情都像代码一样可验证。LLM没有常识，也没有硬性约束来保证其必须正确完成任务或预测任务是否被完成。

他提出的“目标驱动AI”架构则不同：给系统一个目标任务，系统通过内部的世界模型预测一系列想象行动的结果，并优化寻找能最小化成本函数（描述任务完成度）的行动序列。这个系统仍然会犯错，但它至少能在某种程度上预测后果。更重要的是，你可以在系统上叠加多个目标函数或约束条件，从构造上保证其不会违反安全规则，而LLM则总能找到“逃逸”的方式。

以医疗领域为例，LLM可以复述书本知识，但无法像真正理解世界的模型那样，为情况复杂的慢性病患者设计个性化治疗方案，或者理解如何引导干细胞分化为特定细胞。这些都需要对生理动态有深刻的心智模型。

离开Meta：研究文化与战略转向

在Meta任职十多年、建立了世界顶级研究实验室FAIR的LeCun，最终选择了离开。他如何看待这段时光？

LeCun认为做对的事情是建立了一个顶级实验室，真正做出了突破性创新，产出了如PyTorch这样的基础工具，并培育了一种对突破性创新至关重要的开放、尊重科学过程的文化。

他阐述了创新的链条：最前端是“蓝天研究”，大部分发生在大学，少数在工业界的高级研究实验室；下一步是验证想法能否变得有用；再下一步是公司投入工程力量将其推向实用。很多项目在最后一步失败，很多公司在此掉链子。Meta在这方面曾不错，但远非完美。

问题部分在于组织。需要一个既能衔接研究、又非短期产品导向的团队来接力。Meta曾有这样的组织，但后来丢失了。FAIR变得孤立，许多想法无人承接。2024年Gen AI部门成立，从FAIR抽调了大量人员，但由于面临巨大的短期压力，无暇与FAIR交流，变得非常保守，导致研究与产品之间出现断层。从Llama 3开始，这种情况就已显现，许多优秀人才因此离开。

主持人问，像当年FAIR那样的纯研究环境，在今天是否还存在？LeCun认为，在Google Research和DeepMind内部还有少数这样的地方，但整个行业正变得越来越封闭。无论是Google还是Meta，都对发表论文施加了更多限制，这种氛围不利于突破性研究。

他略带遗憾地总结道，要获得突破性研究其实很简单：雇佣最优秀的人，他们有嗅觉知道该做什么；给予他们成功所需的资源；然后，滚开，别挡路。

对新一代研究者的建议

FAIR的遗产之一是为整个生态系统培养了大量的研究者。但对于今天刚进入领域的年轻人，可能一开始就陷入短期导向的环境。LeCun对此有何建议？

他表示，愿意与他共事的人通常有两个特点：一是足够“疯狂”，二是认同一个理念——在学术界读博士期间，应该致力于研究“下一代”AI系统，而非“当前这一代”。如果你现在还在学术界做LLM研究，会非常无聊，基本上只是在描述LLM为何有效、有何局限，缺乏创造性。而且，在学校里根本拿不到训练LLM所需的大量GPU资源。因此，他的建议很直接：如果你在读博士，别做LLM，没有意义，你做不了贡献。

至于离开Meta的决定，是多种因素的综合。很多人误解了他在Meta的角色。2013年底加入后，他花了四年半时间建立并管理FAIR，之后退居二线，担任首席AI科学家，专注于推进他认为必要的研究项目，即基于自监督学习和世界模型的架构。

2016年，他就在NeurIPS大会上提出，AI的未来在于自监督学习和世界模型。2020年左右，JEPA的核心想法成形。2024年，他撰写了一篇长文阐述整个愿景，并公开了所有想法，希望吸引更多人加入这一方向。这确实奏效了，不仅吸引了学生，也在FAIR内部凝聚了一个团队，并将此方向确立为“高级机器智能”的重大使命。

尽管获得了扎克伯格等高层领导的支持，但随着公司将全部精力重新聚焦到LLM上，环境发生了变化。JEPA世界模型的许多应用场景（如工业领域）并非Meta的兴趣所在，FAIR也越来越被要求去辅助LLM项目。

当被问及Scale AI的收购是否是Meta全面聚焦LLM的催化剂之一时，LeCun坦言“肯定是的”。他推测，扎克伯格可能在亚历山大王身上看到了某种接班人的影子。但他也澄清了一个普遍的误解：他对Llama的技术贡献为零，唯一的贡献是力主开源Llama 2。他从未反对LLM研究，只是认为那不是通往人类水平智能的道路。

到了2024年初，尤其是2025年，FAIR的走向和管理方式已经不符合他心目中保持创新和突破所需的条件。许多优秀的人才已经离开，他最终也做出了离开的决定。