具身智能新突破：1500万参数模型单卡实现物理世界交互，Yann LeCun预言成真

2026-05-19阅读 0热度 0

具身智能

当AI忙于预测下一个词，或是生成下一个像素时，海量的计算资源其实被消耗在了对表面细节的复刻上。模型更像是在记忆统计规律，而非真正理解现实世界的内在逻辑。

现在看来，Yann LeCun的观点或许一直是对的。

过去三年，整个行业似乎只遵循一个简单的逻辑：把模型做得更大。参数规模从千亿迈向万亿，背后的算力投入更是以千亿美元计。这背后的信念近乎一种“暴力美学”——只要模型足够庞大，它终将“理解”世界。

但LeCun对此持有根本性的不同意见。他反复强调，生成式AI的路径从本质上讲是低效的。它耗费巨大算力去填补细节，却未必触及世界的核心运作机制。

为此，他提出了另一条道路：JEPA（联合嵌入预测架构）。

JEPA的核心思路是让AI在一种压缩后的“思维空间”里进行预测，关注的是抽象概念和状态变化，而非具体到每一个像素的细节。这听起来更高效，也更接近人类的推理方式。

然而，JEPA长期面临一个棘手的难题：表征崩塌。

由于模型被允许对现实进行抽象和简化，它很容易“偷懒”和“作弊”。为了最小化预测误差，它可能将万事万物都压缩成极度相似的内部表示。最终，在它眼中，狗、汽车和人可能变得难以区分——这显然背离了学习的初衷。

为了解决这个问题，以往的研究不得不引入一系列复杂的工程补丁：冻结部分编码器、采用指数移动平均技术、调整多达六七个超参数……每一个补丁都带来了额外的计算成本和调试复杂度。

直到最近，这个难题迎来了一个优雅的解决方案。

Yann LeCun团队的最新论文提出了名为LeWorldModel的新模型，它从根本上解决了表征崩塌的问题。

这篇论文的核心创新点在于，它用一个简洁的数学正则化项，取代了以往所有复杂的工程技巧。

这个名为SIGReg的正则化项，强制要求模型内部的隐式表示符合标准高斯分布。这一约束如同给模型戴上了“紧箍咒”，让它无法再将所有信息压缩成无意义的单一表征。模型被迫去学习并区分现实世界中不同的物理状态和概念，才能做出准确的预测。

如此一来，训练过程变得干净利落。整个系统可以端到端地、直接从原始像素数据稳定地进行训练。超参数的数量从原来的六七个锐减到几乎只有一个（主要是一个权重系数λ，大约设为0.1）。

这项改进彻底改写了AI模型的经济账。

LeWorldModel的参数量仅有1500万。这意味着在一块消费级GPU上，几个小时就能完成训练。它不需要复杂的奖励信号设计，只需要带有动作标签的离线视频数据。

但其规划效率却高得惊人。相比大型的基础世界模型，它的规划速度快了48倍。以往需要47秒才能完成的规划序列，现在仅需1秒。秘诀在于它将每一帧图像编码成一个192维的隐向量，这比其他方法减少了近200倍的token处理量。

研究团队在多项机器人控制任务上进行了验证，包括推方块、机械臂操作、双房间导航和三维物体抓取。结果显示，在大多数任务中，这个小巧的模型性能持平甚至超越了那些庞大得多的基础模型方案。更值得注意的是，它从头开始学习，无需任何预训练的视觉特征作为“拐杖”。

它的内部表示也不再是难以解读的“黑箱”。通过简单的线性探针，就能从中可靠地解码出物体的位置、速度等物理量。当视频中间出现违反物理规律的事件（比如物体瞬间移动）时，模型能够稳定地检测到这种“异常”。

当然，论文也坦诚地指出了当前的局限性：模型目前只验证了大约5步的短程规划；所有实验均在模拟环境中进行，尚未在真实机器人上部署；此外，在那些内在维度极低的简单场景中，高斯先验假设可能不那么适用，模型表现会稍打折扣。

这并不意味着生成式AI的道路走到了尽头。但LeCun的这项研究确实提供了一个清晰、可复现的范本，让他倡导多年的世界模型路线，特别是在机器人与物理交互领域，变得前所未有的切实可行。

行业已经投入了数千亿美元，让庞大的服务器集群去学习和记忆互联网上的所有数据。

而现在，一个在单张显卡上仅需训练数小时的小模型，正在向我们展示另一种可能：如何让AI真正学会理解现实世界的运作方式。

具身智能的实质性突破，或许就在未来的一两年内。无论如何，未来的技术图景，正因此变得更加值得期待。

相关阅读