Yann LeCun深度解析:为何主流AI的像素重建路径存在根本缺陷?

2026-05-13阅读 0热度 0
Meta

在近期的一次公开对话中,图灵奖得主杨立昆(Yann LeCun)重申了他对智能本质的严苛定义:“一个无法预测自身行为后果的系统,本质上不能算作真正的智能体。”

这延续了他一贯挑战行业共识的风格。那句引发广泛讨论的“大语言模型是条死胡同”,正是源于他对当前AI范式的根本性质疑。他多次指出,现有的大语言模型缺乏对物理世界的因果推理与预测能力,本质上是在进行高维度的模式匹配与文本复现,而非真正的理解。

他的批判更进一步,直指生成式AI的核心训练范式:“逐像素重建是一个错误的目标,它并非自监督学习的正确方向。”他认为,无论是预测视频的下一帧像素,还是预测文本的下一个词元,这种基于重建误差的方法论,在应对开放、高维且连续的物理世界时,存在根本性的理论局限。

那么,替代方案是什么?他全力押注一条不同的技术路线:“联合嵌入架构比生成式方法更适合进行表示学习。”其载体是一个名为JEPA(联合嵌入预测架构)的框架——该架构在设计之初就放弃了直接生成像素或文本,转而学习世界的抽象表征。

为了验证这条路径,他已离开Meta,筹集10亿美元创立了新的研究机构AMI Labs。这不仅仅是一次理论上的分歧,更像是一次以巨额资本为后盾,向主流技术路线发起的实质性挑战。

AI的辉煌与路径依赖

一种浅显的解读是,杨立昆的离开源于内部失势。但这忽略了他贯穿始终的学术性格。用他自己的话形容:“我不追逐热点,我的研究由长期的技术愿景驱动,而非市场情绪。”

回顾AI发展史,这种“逆潮流”的坚持是他的标志。早在2015年,当业界为强化学习的每一次突破欢呼时,他便提出了著名的“蛋糕比喻”:智能的主体是自监督学习,监督学习只是糖霜,强化学习不过是顶上的樱桃。当时这一观点备受冷遇,但十年后,以GPT为代表的自监督学习浪潮,无疑印证了他的前瞻性。

如今,当行业将资源疯狂倾注于放大语言模型时,他提出了一个更为宏大的构想:世界模型(World Model)。

图片

在他看来,当前AI与人类智能的关键差距,在于对物理世界的隐式理解与行为后果预测。一个青少年能在二十小时内学会安全驾驶,而耗费数百万小时视觉数据训练的AI系统,却仍在迈向高阶自动驾驶的路上步履维艰。核心在于,人类拥有基于物理常识的预测能力,而大语言模型仅掌握了语言层面的统计相关性。

因此,他提出了那个根本性质疑:“我无法认同,一个不具备行为后果预测能力的系统,能被称为真正的智能体。”尽管行业主流声音仍在强调“缩放定律尚未见顶”,并将“世界模型”视为遥远的概念,但杨立昆的学术轨迹表明,他的研究从不需要外界的共识来背书。

生成式AI的模糊困境

杨立昆与主流生成式路径的分歧,根植于一段早期研究中的挫败经验。

在Transformer架构崛起之前,他和同行尝试过一个直观的思路:让AI观看视频,并逐像素预测下一帧。但他们迅速遭遇了一个无法克服的障碍——模型生成的画面始终是模糊的。

图片

背后的原因清晰而深刻。他常举一个例子:视频中一个球撞击墙面,下一帧可能是向左弹,也可能是向右弹。当模型被强制输出一个确定的像素画面时,其最优策略是对所有可能未来的像素值取平均,结果就是丢失细节的模糊图像。

问题的维度灾难更为严峻。语言模型的词表是有限离散集合,而一张高清图像包含数百万像素,每个像素有256种灰度或色彩可能,导致下一帧的可能性空间是天文数字。模型无法像处理词汇那样,为每一种可能的画面配置一个输出节点。

基于这些教训,他得出了明确结论:“像素级重建是一个错误目标。”模型是否必须生成原始数据?他的答案是否定的。

他提出的新路径是:放弃让模型猜测每一个像素,转而让AI学会在抽象的表示空间中进行推理。其核心是让模型先学习“表征”世界,过滤掉不可预测的噪声细节,将视频帧压缩为低维向量,然后在这个抽象空间里预测如物体轨迹、速度等关键结构化信息。

这就是JEPA框架的核心理念。与生成模型疲于应付所有像素不同,JEPA专注于场景中可预测的、高层次的因果特征。其工作流程是:通过编码器将当前帧与目标帧分别映射为表征向量,然后训练一个预测器,在向量空间中从当前表征预测未来表征。

他有一个形象的类比:用生成模型预测行车记录仪视频,大量计算资源会浪费在预测路边树叶的无规则晃动上——这些是噪声。而JEPA则专注于车辆、行人、交通信号等具有明确物理规律且对决策至关重要的实体。

攻克表示学习的核心挑战

JEPA的思想渊源可追溯至杨立昆三十年前在贝尔实验室的工作:孪生神经网络。当时该网络用于笔迹验证,它并不生成签名图像,而是比较两个签名编码后向量的相似性。这种方法跳过了繁琐的重建,直接学习抽象特征。JEPA继承了这一哲学:先编码,在表征空间进行预测,绝不回退到原始像素。

然而,这条路径面临一个关键挑战:“表示崩溃”。

图片

什么是表示崩溃?简单来说,如果训练两个编码器,要求它们对同一图像的不同增强版本输出相似向量,模型可能会找到一个“捷径解”:无论输入什么,都输出一个恒定向量(例如全零向量)。这样相似度最大化的目标轻易达成了,但模型没有学到任何有意义的特征。

早期的孪生网络依赖对比学习来防止崩溃,即需要同时提供正样本和负样本,迫使模型学会区分。但这种方法在大规模应用中面临计算瓶颈:所需负样本数量可能随表征维度指数级增长,导致训练成本高昂。

转机出现在2020年。他与合作者提出了名为Barlow Twins的方法,其灵感来源于神经科学家霍勒斯·巴洛的冗余减少假说:生物感知系统通过减少神经元响应的相关性来高效编码信息。该方法有效遏制了表示崩溃。Barlow Twins在ImageNet图像分类任务上达到了73.2%的top-1准确率,比2012年划时代的AlexNet高出超过十个百分点。

随后,其团队又提出了更简洁的VicReg方法,同样取得了优异效果。而Meta巴黎团队基于此思路迭代出的DINO系列模型,更是将性能推向了新的高度。

图片

2025年8月发布的DINOv3,在ImageNet上取得了88.4%的准确率。其论文明确指出:这是自监督学习模型首次在图像分类任务上,与使用人工标注的监督模型性能持平。

更令人印象深刻的是DINO展现出的语义理解能力。例如,给定一张包含人手的图片,提取手部区域的表征向量,并将其与图像其他部分进行相似度计算并可视化,DINO能精确地将手部轮廓分割出来。该方法对球体、动物、物体等同样有效。这强有力地证明,模型在没有人工标注的情况下,已经学习到了高度语义化的视觉表征。

这些进展坚定了杨立昆的判断:在视觉等领域,基于联合嵌入的表征学习路径,比传统的生成式重建更具潜力与效率。

一场关于AI未来的对赌

作为当前技术主流的批判者,杨立昆的观点在硅谷显得格格不入:“我难以理解,一个无法预测自身行为影响的系统,如何能被视为真正的智能体。”

他并非否认大语言模型所取得的工程奇迹,但他尖锐地指出:语言模型的成功,得益于语言本身的离散性与有限词表。然而,物理世界是连续且无限开放的,不存在一个能囊括所有可能性的“词表”。因此,将“下一个词元预测”这套在离散符号系统中有效的方法,直接套用于对连续物理世界的建模,在根本上是不匹配的。

历史仿佛再次轮回。当所有人聚焦强化学习时,他预言自监督学习才是基石,后来GPT的崛起验证了这一点。如今,当整个行业全力冲刺大语言模型时,他再次成为了那个提出不同声音的人。

但这一次,局面已然不同。他不仅押上了自己的学术声誉,更动用了十亿美元的资本。这不再是一场纯粹的学术争论,而是一场关乎人工智能未来十年发展方向的实质性对赌。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策