Yann LeCun深度解析：为何主流AI的像素重建路径存在根本缺陷？

2026-05-13阅读 0热度 0

AI的辉煌与路径依赖

一种浅显的解读是，杨立昆的离开源于内部失势。但这忽略了他贯穿始终的学术性格。用他自己的话形容：“我不追逐热点，我的研究由长期的技术愿景驱动，而非市场情绪。”

回顾AI发展史，这种“逆潮流”的坚持是他的标志。早在2015年，当业界为强化学习的每一次突破欢呼时，他便提出了著名的“蛋糕比喻”：智能的主体是自监督学习，监督学习只是糖霜，强化学习不过是顶上的樱桃。当时这一观点备受冷遇，但十年后，以GPT为代表的自监督学习浪潮，无疑印证了他的前瞻性。

如今，当行业将资源疯狂倾注于放大语言模型时，他提出了一个更为宏大的构想：世界模型（World Model）。

在他看来，当前AI与人类智能的关键差距，在于对物理世界的隐式理解与行为后果预测。一个青少年能在二十小时内学会安全驾驶，而耗费数百万小时视觉数据训练的AI系统，却仍在迈向高阶自动驾驶的路上步履维艰。核心在于，人类拥有基于物理常识的预测能力，而大语言模型仅掌握了语言层面的统计相关性。

因此，他提出了那个根本性质疑：“我无法认同，一个不具备行为后果预测能力的系统，能被称为真正的智能体。”尽管行业主流声音仍在强调“缩放定律尚未见顶”，并将“世界模型”视为遥远的概念，但杨立昆的学术轨迹表明，他的研究从不需要外界的共识来背书。

生成式AI的模糊困境

杨立昆与主流生成式路径的分歧，根植于一段早期研究中的挫败经验。

在Transformer架构崛起之前，他和同行尝试过一个直观的思路：让AI观看视频，并逐像素预测下一帧。但他们迅速遭遇了一个无法克服的障碍——模型生成的画面始终是模糊的。

背后的原因清晰而深刻。他常举一个例子：视频中一个球撞击墙面，下一帧可能是向左弹，也可能是向右弹。当模型被强制输出一个确定的像素画面时，其最优策略是对所有可能未来的像素值取平均，结果就是丢失细节的模糊图像。

问题的维度灾难更为严峻。语言模型的词表是有限离散集合，而一张高清图像包含数百万像素，每个像素有256种灰度或色彩可能，导致下一帧的可能性空间是天文数字。模型无法像处理词汇那样，为每一种可能的画面配置一个输出节点。

基于这些教训，他得出了明确结论：“像素级重建是一个错误目标。”模型是否必须生成原始数据？他的答案是否定的。

他提出的新路径是：放弃让模型猜测每一个像素，转而让AI学会在抽象的表示空间中进行推理。其核心是让模型先学习“表征”世界，过滤掉不可预测的噪声细节，将视频帧压缩为低维向量，然后在这个抽象空间里预测如物体轨迹、速度等关键结构化信息。

这就是JEPA框架的核心理念。与生成模型疲于应付所有像素不同，JEPA专注于场景中可预测的、高层次的因果特征。其工作流程是：通过编码器将当前帧与目标帧分别映射为表征向量，然后训练一个预测器，在向量空间中从当前表征预测未来表征。

他有一个形象的类比：用生成模型预测行车记录仪视频，大量计算资源会浪费在预测路边树叶的无规则晃动上——这些是噪声。而JEPA则专注于车辆、行人、交通信号等具有明确物理规律且对决策至关重要的实体。

攻克表示学习的核心挑战

JEPA的思想渊源可追溯至杨立昆三十年前在贝尔实验室的工作：孪生神经网络。当时该网络用于笔迹验证，它并不生成签名图像，而是比较两个签名编码后向量的相似性。这种方法跳过了繁琐的重建，直接学习抽象特征。JEPA继承了这一哲学：先编码，在表征空间进行预测，绝不回退到原始像素。

然而，这条路径面临一个关键挑战：“表示崩溃”。

什么是表示崩溃？简单来说，如果训练两个编码器，要求它们对同一图像的不同增强版本输出相似向量，模型可能会找到一个“捷径解”：无论输入什么，都输出一个恒定向量（例如全零向量）。这样相似度最大化的目标轻易达成了，但模型没有学到任何有意义的特征。

早期的孪生网络依赖对比学习来防止崩溃，即需要同时提供正样本和负样本，迫使模型学会区分。但这种方法在大规模应用中面临计算瓶颈：所需负样本数量可能随表征维度指数级增长，导致训练成本高昂。

转机出现在2020年。他与合作者提出了名为Barlow Twins的方法，其灵感来源于神经科学家霍勒斯·巴洛的冗余减少假说：生物感知系统通过减少神经元响应的相关性来高效编码信息。该方法有效遏制了表示崩溃。Barlow Twins在ImageNet图像分类任务上达到了73.2%的top-1准确率，比2012年划时代的AlexNet高出超过十个百分点。

随后，其团队又提出了更简洁的VicReg方法，同样取得了优异效果。而Meta巴黎团队基于此思路迭代出的DINO系列模型，更是将性能推向了新的高度。

2025年8月发布的DINOv3，在ImageNet上取得了88.4%的准确率。其论文明确指出：这是自监督学习模型首次在图像分类任务上，与使用人工标注的监督模型性能持平。

更令人印象深刻的是DINO展现出的语义理解能力。例如，给定一张包含人手的图片，提取手部区域的表征向量，并将其与图像其他部分进行相似度计算并可视化，DINO能精确地将手部轮廓分割出来。该方法对球体、动物、物体等同样有效。这强有力地证明，模型在没有人工标注的情况下，已经学习到了高度语义化的视觉表征。

这些进展坚定了杨立昆的判断：在视觉等领域，基于联合嵌入的表征学习路径，比传统的生成式重建更具潜力与效率。

一场关于AI未来的对赌

作为当前技术主流的批判者，杨立昆的观点在硅谷显得格格不入：“我难以理解，一个无法预测自身行为影响的系统，如何能被视为真正的智能体。”

他并非否认大语言模型所取得的工程奇迹，但他尖锐地指出：语言模型的成功，得益于语言本身的离散性与有限词表。然而，物理世界是连续且无限开放的，不存在一个能囊括所有可能性的“词表”。因此，将“下一个词元预测”这套在离散符号系统中有效的方法，直接套用于对连续物理世界的建模，在根本上是不匹配的。

历史仿佛再次轮回。当所有人聚焦强化学习时，他预言自监督学习才是基石，后来GPT的崛起验证了这一点。如今，当整个行业全力冲刺大语言模型时，他再次成为了那个提出不同声音的人。

但这一次，局面已然不同。他不仅押上了自己的学术声誉，更动用了十亿美元的资本。这不再是一场纯粹的学术争论，而是一场关乎人工智能未来十年发展方向的实质性对赌。

Yann LeCun深度解析：为何主流AI的像素重建路径存在根本缺陷？

AI的辉煌与路径依赖

生成式AI的模糊困境

攻克表示学习的核心挑战

一场关于AI未来的对赌

相关阅读

最新教程

最新资讯