LeCun与Hinton激辩:大语言模型未来走向深度解析

2026-05-19阅读 0热度 0
翻译

图灵奖得主Yann LeCun近期在一档播客中的深度对话,清晰地勾勒出他与当前AI主流路线的根本分歧。这位Meta前首席AI科学家首次系统阐述了他离开巨头公司、创立AMI(Advanced Machine Intelligence)背后的技术哲学与行业判断。

访谈中,LeCun观点犀利。他不仅评价了昔日同僚Hinton与Bengio的理念转变,更深入剖析了为何大语言模型(LLM)无法通向通用人工智能(AGI),并详细解释了其押注的“世界模型”架构将如何重塑智能系统的未来。

LLM为何不是智能的终极路径

主持人首先切入核心:你曾因坚信神经网络而逆流前行,最终被历史证明。如今你再次站在主流对立面,质疑LLM与生成式架构,并为此创立新公司。根本原因是什么?

LeCun首先明确,他并非否定LLM的实用价值。LLM是众多优秀AI产品的基石,他本人也在使用,它们在其设计范畴内表现卓越。

但问题的本质在于,LLM并非通往人类乃至动物水平智能的路径。语言是一种特殊且高度结构化的信息载体,恰好契合当前架构。然而,真实世界是高维、连续且充满噪声的复杂系统,其复杂程度与文本数据不在同一量级。

LeCun指出,他职业生涯的后期,尤其是近五六年,核心工作就是攻克现实世界的AI问题,并在近两年取得关键突破。到去年底,他意识到Meta已非推进此项研究的理想环境,因此选择离开并创立AMI,其使命正是构建“面向真实世界的AI”。

这似乎折射出一种行业现象:越来越多的研究者带着坚信的技术方向,从大公司或实验室出走创业。LeCun认为,这背后是一种结构性矛盾。

一种模式是在公司内部进行多方向的探索性研究。一旦某个方向显现成功迹象,需要规模化推进时,性质就变了——它从研究转向工程与产品化。Meta内部多次上演此情景。

例如,FAIR开发的Llama 1曾前景广阔,Meta为此专门成立Gen AI部门进行产品化,后续推出了Llama 2、3、4。然而,Llama 4的表现未达预期,引发了管理层重组。过去一年,Meta在行业竞争中感到落后,战略全面转向追赶,其副作用便是大量探索性研究的优先级被降低。

LeCun自己的JEPA与世界模型研究虽未直接叫停,但他清晰地看到,公司的其他部分已完全聚焦于LLM。这让他明白,Meta已非实践其技术蓝图的理想之地。他们的研究已取得初步成果,需要从纯研究转向技术开发与产品化。同时他们也意识到,许多潜在应用场景(如先进制造业)并非Meta的核心兴趣所在。

世界模型:智能的预测与规划核心

那么,LeCun所倡导的“世界模型”究竟指什么?目前也有其他团队从生成式角度切入世界模型,例如Google的Genie、各类视频生成模型,以及李飞飞团队的3D空间模型。LeCun的JEPA架构与这些方法有何本质区别?

LeCun指出,“世界模型”正在成为一个流行词汇。他认为,像视觉-语言-动作(VLA)这类方法已被证明难以走通,因其可靠性不足且依赖海量训练数据。

从根本上说,世界模型赋予智能体预测自身行为后果的能力。很难想象一个不具备此能力的系统能被称为智能。人类若不计后果行动,会被视为鲁莽。因此,世界模型的核心是预测行为后果,并据此规划一系列行动以达成目标。这个过程依赖于规划、推理、搜索与优化,而非像LLM那样进行逐个token的自回归预测。

LLM缺乏预测行为后果的能力,也没有真正的规划能力,因为它的“推理”只是预测下一个token,而非在行动空间中进行搜索。因此,智能行为需要三个关键支柱:

  1. 预测行为后果的能力。
  2. 通过优化与搜索进行规划的能力。
  3. 在抽象表征层面进行预测的机制。

他举例说明,我们无法在像素级别精确预测一个水瓶被推倒后的运动轨迹,但我们大脑中的世界模型能在抽象的表征层面进行预测。这正是JEPA(联合嵌入预测架构)的设计哲学。

主持人追问,此架构是否深受人脑启发?LeCun承认,其灵感确实源于认知科学,特别是心理学中的“系统二”思维——那种深思熟虑、涉及想象与后果预测的慢思考,与“系统一”的本能反应相区别。然而,从认知科学概念到具体的神经网络架构,其间仍有巨大的工程鸿沟需要跨越。

LeCun对通过预测构建世界模型的探索由来已久。大约五年前,他意识到所有成功学习了良好图像与视频表征的架构,都是非生成式的。像变分自编码器(VAE)这类直觉上自然的方法,效果并不理想。而另一类技术,如去噪自编码器(遵循MAE、BERT的思路),在FAIR投入大量算力尝试后,结果也令人失望。

与此同时,另一条技术路线展现了曙光:非生成式架构。具体而言,取一张图像,对其施加某种损坏,将原始版本与损坏版本分别送入编码器,然后使用一个预测器,从损坏版本的表征去预测原始版本的表征。这就是JEPA的核心:一个编码器对一种观察进行编码,另一个编码器对另一种观察进行编码,再用一个预测器进行跨表征的预测。

当前具身智能系统的根本局限

话题转向机器人领域。如今许多机器人公司发布的演示视频愈发令人印象深刻,似乎展现了某种规划与推理能力。LeCun如何看待这些进展?

他肯定了真实的进步,但也指出了根本性瓶颈:这些系统严重依赖海量数据训练,无论是通过遥操作还是人工演示收集,主要采用模仿学习,辅以少量仿真中的强化学习。这种方式成本高昂、泛化性脆弱,且每个新任务都需要单独收集数据。

而一个拥有世界模型的系统,能够预测动作结果,可以直接规划行动来完成全新任务,无需针对该任务进行专门训练。世界模型能带来大得多的泛化能力,用更少的训练数据覆盖更广泛的任务谱系。其终极目标是实现“零样本”解决新任务,就像人类或动物那样,仅需极少甚至无需训练数据就能应对大量问题。

他举了一个鲜明的对比:一个17岁的青少年学会开车只需要十几二十个小时。而我们拥有数百万小时的驾驶数据,却至今未能实现真正的全自动驾驶(L5)。模仿学习连“驾驶”这单一任务都未能攻克。

对于利用视频模型生成合成数据来改善机器人表现的想法,LeCun再次回到那个根本问题:为何人类的学习效率如此之高?如果我们破解了这个谜题,就不再需要依赖生成海量数据。或许仍然需要在仿真中训练,但绝不需要现有系统那样庞大的数据量和试错次数。

硅谷的趋同效应与独立道路

主持人提出了一个商业视角的疑问:如果你是OpenAI,知道继续扩大模型规模就能持续获得性能提升,那么从商业角度看,确实缺乏动力去追求数据效率更高的路径。

LeCun表示,其他公司也同样缺乏动力去做不同的事,因为谁都承受不起落后的代价。这形成了一种“硅谷的羊群效应”,所有人都在同一条赛道上内卷。这也正是他将AMI总部设在巴黎、美国办公室设在纽约而非硅谷的原因之一——为了保持思维的独立性与技术路线的自主性。

谈到AMI最令人兴奋的应用方向,LeCun重申是“面向真实世界的AI”,具体包括家用机器人与L5级自动驾驶。不过他也坦言,家用机器人仍需数年时间,因为目前尚无公司真正掌握如何让机器人具备足够的“常识”与“智能”。短期内,工业领域存在海量应用场景,例如对喷气发动机、化工厂、精密生产线甚至细胞生物学过程等复杂动态系统进行建模与控制,这些传统方法难以应对的领域,正是世界模型可以大显身手的地方。

当被问及JEPA模型未来几年的发展时,LeCun给出了一个坚定而略带调侃的回答:“五年内,完全统治世界。”随后他解释这是引用了Linus Torvalds当年关于Linux的豪言,并严肃表示,他确实认为JEPA类世界模型是未来智能系统的蓝图。LLM仍将占有一席之地,但主要是作为语言接口。他们正在设计的,是“能思考的系统”。这些系统最初可能不会说话或聆听,但它们会思考,而后再叠加语言能力。

主持人追问,需要多久大家才会意识到他这次又是对的?LeCun认为,这会比预期来得更快。许多人已经开始意识到VLA路径行不通,LLM处理不了真实世界的复杂数据。范式转换的认知正在发生,到2027年初,这将变得对所有人都显而易见。

Tapestry:构建开放的知识与文化平台

除了AMI,LeCun还在推进另一个名为Tapestry的项目。他解释说,这与AMI Labs的技术方向略有不同。

随着人们越来越多地使用AI助手,传统搜索引擎的使用量在下降。如果Meta等公司的智能设备计划(如智能眼镜)普及,那么几乎所有的信息获取都将通过AI助手中介完成。这就引出了一个关键问题:如果你来自中美以外的国家,使用的AI助手由硅谷或北京的公司打造,那么你的语言、文化、价值观可能无法得到充分理解与体现。

Tapestry旨在解决这个问题。其核心是一个基于开放、免费基础模型的平台(类似Llama的风格),任何人都可以对其进行微调,以适应特定的语言和文化。这是一个全球贡献者共同训练全球模型的构想,本质上是构建一个全世界知识与文化的存储库。贡献者提供数据和算力,但保留对数据的控制权,他们贡献的是参数向量,通过联邦学习的方式,最终汇聚成一个开放的共识模型。

LeCun相信,有一种自然的力量会推动此事发生。AI正在快速成为一个平台,而平台有走向开放的自然趋势。他回顾历史指出,Linux、互联网软件基础设施、无线网络等技术,最初都是私有的,但最终都被开源方案所取代。在他看来,今天的OpenAI、Anthropic,就像是当年的Sun Microsystems和HP-UX。

这背后隐含着他对于这些闭源模型能力上限的判断——开源迟早能追上来。他认为,公开可用的、有价值的文本数据已经耗尽,这些公司正在转向购买商业版权数据或使用合成数据。尽管过去几年LLM在数学和代码等领域取得了令人印象深刻的成果,但LeCun指出,这两个领域的共同点在于,语言本身就是推理的载体。LLM擅长操作形式化的语言(如数学证明、代码生成),但它不擅长创造性的行为,比如提出新概念、新定义,或进行软件架构设计。LLM改变了人类的角色,让我们得以向更抽象的层级迈进,专注于决定“建造什么”,而将“建造”的过程交由LLM辅助完成。

那么,LLM需要做到什么才能改变LeCun的看法?他的答案是:零样本的智能体能力。即面对一个全新的、未经训练的问题,它能否完成?除非这个系统具备预测行为后果并据此进行规划的能力。也许一个被大幅增强、附加了搜索和规划能力的LLM可以做到。目前解决数学问题的LLM已经在做类似的事情,在token空间中进行搜索。但LeCun强调,JEPA所做的规划,是在抽象的“思维”空间,而非token空间。

主持人提出,即便效率较低,但LLM在token空间能完成的工作,已经覆盖了经济活动中很大一部分。LeCun同意这一点,并再次澄清他的立场:LLM擅长什么就用它做什么,这完全没问题。他只是断言,LLM不是通往AGI的道路。而通用AGI所能覆盖的领域,将是无比巨大的。

与Hinton和Bengio的分歧根源

作为三位共享图灵奖的“AI先驱”,LeCun与Hinton、Bengio在LLM的潜力与风险上看法迥异。这种分歧从何而来?

LeCun明确表示:“不是我改了主意,是他们改了主意。”他回忆说,Hinton此前从未特别关注过LLM,直到2024年GPT-4出现,他似乎突然顿悟,认为这些系统已非常接近人类智能,甚至可能有主观体验。

LeCun推测了Hinton的思考逻辑:人类皮层约有160亿个神经元,如果大脑通过某种机制实现近似反向传播的功能,可能需要10个真实神经元来模拟一个反向传播神经元,那么人类皮层就相当于16亿个神经元。而GPT-4的参数规模已接近这个数字,因此Hinton可能认为它已接近人类智能水平。

LeCun对此完全不认同。他觉得Hinton像是“想宣布胜利然后退休”,可以四处演讲谈论AI的危险。不过他也注意到,Hinton近期关于AI危险的声音比一两年前小了许多,可能意识到了几件事:当前的LLM没那么聪明;达到人类智能仍需概念性突破;未来的系统蓝图将与LLM大不相同,并且很可能可控。

LeCun说,他早在几年前就阐述过这些观点,Hinton是最近才意识到。Bengio的情况也类似。他认为两人真正担忧的,是社会体系能否确保AI的好处被最大化,并防止其加剧不平等,这更多是关于“坏的使用者”的问题,而非AI统治世界的末日场景。

但主持人指出,仅凭今天的LLM,风险已然存在。LeCun承认这一点,但他不认为风险像某些人声称的那样具有末日性质,尤其不认同Anthropic试图利用恐惧来推动AI监管的做法。他认为对方或许真心相信,但背后也有商业考量。

谈到新架构的安全性,LeCun说了一句可能让Meta前同事不太高兴的话:LLM本质上无法做到可靠,因为你无法阻止它们产生幻觉。在代码等可以验证输出的领域,LLM表现出色,但并非所有事情都像代码一样可验证。LLM没有常识,也没有硬性约束来保证其必须正确完成任务或预测任务是否被完成。

他提出的“目标驱动AI”架构则不同:给系统一个目标任务,系统通过内部的世界模型预测一系列想象行动的结果,并优化寻找能最小化成本函数(描述任务完成度)的行动序列。这个系统仍然会犯错,但它至少能在某种程度上预测后果。更重要的是,你可以在系统上叠加多个目标函数或约束条件,从构造上保证其不会违反安全规则,而LLM则总能找到“逃逸”的方式。

以医疗领域为例,LLM可以复述书本知识,但无法像真正理解世界的模型那样,为情况复杂的慢性病患者设计个性化治疗方案,或者理解如何引导干细胞分化为特定细胞。这些都需要对生理动态有深刻的心智模型。

离开Meta:研究文化与战略转向

在Meta任职十多年、建立了世界顶级研究实验室FAIR的LeCun,最终选择了离开。他如何看待这段时光?

LeCun认为做对的事情是建立了一个顶级实验室,真正做出了突破性创新,产出了如PyTorch这样的基础工具,并培育了一种对突破性创新至关重要的开放、尊重科学过程的文化。

他阐述了创新的链条:最前端是“蓝天研究”,大部分发生在大学,少数在工业界的高级研究实验室;下一步是验证想法能否变得有用;再下一步是公司投入工程力量将其推向实用。很多项目在最后一步失败,很多公司在此掉链子。Meta在这方面曾不错,但远非完美。

问题部分在于组织。需要一个既能衔接研究、又非短期产品导向的团队来接力。Meta曾有这样的组织,但后来丢失了。FAIR变得孤立,许多想法无人承接。2024年Gen AI部门成立,从FAIR抽调了大量人员,但由于面临巨大的短期压力,无暇与FAIR交流,变得非常保守,导致研究与产品之间出现断层。从Llama 3开始,这种情况就已显现,许多优秀人才因此离开。

主持人问,像当年FAIR那样的纯研究环境,在今天是否还存在?LeCun认为,在Google Research和DeepMind内部还有少数这样的地方,但整个行业正变得越来越封闭。无论是Google还是Meta,都对发表论文施加了更多限制,这种氛围不利于突破性研究。

他略带遗憾地总结道,要获得突破性研究其实很简单:雇佣最优秀的人,他们有嗅觉知道该做什么;给予他们成功所需的资源;然后,滚开,别挡路。

对新一代研究者的建议

FAIR的遗产之一是为整个生态系统培养了大量的研究者。但对于今天刚进入领域的年轻人,可能一开始就陷入短期导向的环境。LeCun对此有何建议?

他表示,愿意与他共事的人通常有两个特点:一是足够“疯狂”,二是认同一个理念——在学术界读博士期间,应该致力于研究“下一代”AI系统,而非“当前这一代”。如果你现在还在学术界做LLM研究,会非常无聊,基本上只是在描述LLM为何有效、有何局限,缺乏创造性。而且,在学校里根本拿不到训练LLM所需的大量GPU资源。因此,他的建议很直接:如果你在读博士,别做LLM,没有意义,你做不了贡献。

至于离开Meta的决定,是多种因素的综合。很多人误解了他在Meta的角色。2013年底加入后,他花了四年半时间建立并管理FAIR,之后退居二线,担任首席AI科学家,专注于推进他认为必要的研究项目,即基于自监督学习和世界模型的架构。

2016年,他就在NeurIPS大会上提出,AI的未来在于自监督学习和世界模型。2020年左右,JEPA的核心想法成形。2024年,他撰写了一篇长文阐述整个愿景,并公开了所有想法,希望吸引更多人加入这一方向。这确实奏效了,不仅吸引了学生,也在FAIR内部凝聚了一个团队,并将此方向确立为“高级机器智能”的重大使命。

尽管获得了扎克伯格等高层领导的支持,但随着公司将全部精力重新聚焦到LLM上,环境发生了变化。JEPA世界模型的许多应用场景(如工业领域)并非Meta的兴趣所在,FAIR也越来越被要求去辅助LLM项目。

当被问及Scale AI的收购是否是Meta全面聚焦LLM的催化剂之一时,LeCun坦言“肯定是的”。他推测,扎克伯格可能在亚历山大王身上看到了某种接班人的影子。但他也澄清了一个普遍的误解:他对Llama的技术贡献为零,唯一的贡献是力主开源Llama 2。他从未反对LLM研究,只是认为那不是通往人类水平智能的道路。

到了2024年初,尤其是2025年,FAIR的走向和管理方式已经不符合他心目中保持创新和突破所需的条件。许多优秀的人才已经离开,他最终也做出了离开的决定。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策