李飞飞亲自辟谣世界模型:最新全面权威深度解读与未来影响
一、世界并非由文字构筑而成
此前关于空间智能的讨论中,我们已经清楚看到:空间智能是AI的下一个前沿,而世界模型是抵达那里的必经之路。现在,需要把视野拉近,仔细看看那些被贴上“世界模型”标签的各类产物——它们到底由哪些功能模块构成?每个模块又各自承担什么角色?
大语言模型让机器拥有了概念理解、词汇运用和逻辑推理的能力,这当然很厉害。但无论是现实物理世界还是虚拟世界,它们运行的底层规律和文本完全不同。语言模型学的是文本的统计规律,世界模型则要学时空的统计规律:光线怎么落在物体表面、相机拍不到的花园另一端什么样、物体受力后怎么运动、物理定律如何支配一切。这是两个完全不同的学习任务。
正因如此,“世界模型”成了当下AI领域最重要、也最容易被滥用的术语之一。计算机视觉、机器人、强化学习、生成式AI——每个方向的研究者都在宣称自己研发了世界模型,可彼此说的根本不是一回事。能生成绚丽但违反物理定律火焰的视频模型、能即兴生成游戏的语言模型、能精准模拟燃烧过程的物理引擎——如今全被塞进“世界模型”同一个筐里,混乱程度可想而知。
这种局面的根源,和古希腊学者争论世界本源是火、水还是原子时遇到的问题如出一辙:“世界”从来就没有唯一定义,它只是研究者用来指代某个完整客观存在的代称。如今AI领域正处在亟需精确定义的关键阶段,偏偏又撞上了这个老难题。
二、分类体系底层的交互闭环
想要理清概念乱象,可以从一张原理图入手——这张图甚至比绝大多数相关技术的历史还要久远。几十年来,从Sutton和Barto的经典教材到各类强化学习教科书,都在用它描述智能体与环境的交互逻辑。这套框架的正式名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”最初的定义,就诞生于这个理论体系。
在这个框架里,智能体——可以是人类、机器人或者软件系统——会执行动作,动作改变环境状态。关键来了:智能体无法直接看到完整的环境状态,只能获取观测信息:射入视网膜的光子、传感器传回的读数、视频画面中的像素。新的观测结果指导它生成下一个动作,循环往复,形成闭环。
这里需要拆解一个重要术语——“状态”。它在不同学科里定义完全不同。我们说的不是化学里固液气那种状态,而是物理学和机器人学中定义的状态:对某一时刻客观环境的完整描述,包含所有物体的位置、速度以及各种属性。环境状态是客观世界的底层全貌,理论上信息足够完整,但身处其中的智能体没法直接全盘获知。观测是智能体对客观世界的局部感知,动作则是它基于感知做出的反馈行为。
从智能体、动作、环境状态、观测信息,再回到智能体——这套闭环,为现代“世界模型”奠定了技术定义。事实上,“世界模型”这个说法本身历史更悠久:最早可以追溯到1943年,肯尼斯·克雷克提出人脑依靠构建现实的“微型模型”来完成逻辑思考。上世纪80年代末到90年代初,这个想法又被引入神经网络研究。而今天五花八门的世界模型产品,本质上都是这套闭环的不同实现方向,各自只输出闭环中的某一部分信息。
三、世界模型的三大功能分类
第一类世界模型叫渲染器。它以像素画面的形式输出可供人类观看的观测信息,核心评判标准就是视觉还原度。能根据文本提示生成电影级航拍画面的视频模型属于渲染器,Google的Genie 3、World Labs自研的RTFM这类能根据用户输入实时生成画面的交互式系统也一样。但注意:这类模型并不具备对三维结构的显性认知,它只生乘人类肉眼能看到的画面,不是客观的真实结构。航拍镜头里的建筑从上面看毫无破绽,可要是驾车穿行在城下,建筑结构立马就会崩坏。
第二类是仿真器。它输出的是环境状态——在几何、物理、动力学层面贴合客观规律的环境表征,供人类和计算机程序运算、交互。渲染器只要看着像就行,仿真器则要恪守结构真实性:几何结构经得起校验,物理规则符合牛顿定律,物体动力学表现贴合现实规律。仿真器同时服务两类用户:建筑师、设计师、影视与游戏&开发者需要远超视觉逼真度的精准环境;强化学习智能体、机器人控制器、自动驾驶等程序则把仿真环境当作规模化训练场,用来测试现实中危险、成本高昂或根本没法直接落地的场景。
第三类是规划器。它输出的是动作指令:根据观测信息和预设目标,给出智能体下一步的行动方案。从逻辑上看,它和渲染器互为逆过程——渲染器输入动作、输出观测画面;规划器输入观测信息、输出动作指令,正好补上感知与动作的闭环。视觉-语言-动作(VLA)模型、基于模型的控制系统,还有新近兴起的世界动作模型(World Action Models)都属于规划器方向,这类系统能为非结构化环境中的机器人制定行动策略。
当下落地量产的绝大多数世界模型产品,都可以归入这三类。这种划分在实际应用中很有价值,但三类模型底层并不是割裂的。几何、物理、动力学这套描述客观世界运行逻辑的基础知识,是三者共用的底层原理。理论上,能从任意视角渲染杯子的模型,也可以仿真杯子被推倒后的状态、规划机械手抓取杯子的动作。当前的前沿研究正不断打破这三类模型的边界。
▲World Labs世界模型三大功能模块拆解示意图(图源:World Labs)
四、仿真为何是核心支柱
在三类模型中,仿真器受到的大众关注度最低,却具备最深远的产业价值。这种关注度与重要度的失衡,值得专门展开说说。
渲染器是商业化落地最成熟的品类:多款文生图、文生视频产品正快速渗透消费级和企业级市场,谷歌的Nano Banana模型甚至把高质量图像生成能力带给了数以亿计的潜在用户。技术和市场都已经得到充分验证。但渲染器的优化目标是视觉逼真度,不追求物理精准性,这成了它的能力上限:画面观感再好,也没法用到建筑设计、机器人训练这些需要严谨物理逻辑的场景里。
规划器的发展前景最受期待,可技术还刚起步,和高速发展的机器人学习领域深度绑定。近两年机器人相关的演示视频效果很亮眼,但客观来说,绝大多数演示都局限在条件严苛的实验室环境中:操作物品种类有限、任务流程简短,还达不到真实落地所需的环境复杂度、场景多变性和长时间稳定运行要求。从实验室演示到能在厨房、仓库、手术室稳定作业的商用机器人,中间还隔着巨大的技术鸿沟。不过资本对规划赛道投入很大,一批资金充裕的创业公司正在争相落地通用规划系统,头部基础设施厂商也选择在仿真技术栈之上搭建规划能力。能自主规划的机器人才有实用价值,全行业都在争分夺秒攻克这道难关。
仿真技术是衔接渲染与规划的桥梁。如果说语言是世界的抽象概括、像素是世界的视觉投影,那么几何、物理与动力学规律就是世界本身。仿真器立足客观规律搭建底层结构,渲染所需的外观画面、规划所需的动作结果,都能从这套结构中衍生出来。
掌握仿真能力的模型,既可以把对世界的理解转化为可供人类观看的像素画面,也能为实体智能体预判动作结果。而只专攻渲染或规划其中一项的模型,做不到两头兼顾。仿真的商业化市场空间非常庞大:仅英伟达的Omniverse,面向工厂、仓储、供应链、数字孪生的潜在市场规模就被公司预估超过万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程研发、药物研发……全都离不开仿真技术。
AI领域不少棘手的待解难题也集中在仿真赛道。标注了几何结构、材质属性、物理参数的三维数据集,体量远少于渲染模型训练所用的互联网视频素材;仿真与现实之间的域差问题始终难以根除;生成式仿真还添了新隐患——AI生成的几何模型看着正常,实际可能存在面相交、尺寸失真,进而导致物理运算结果违背常理。能同时实现刚体、柔体、流体、织物交互的大规模多物理场仿真,算力成本远高于单一物理场景仿真。
World Labs推出的Marble是我们布局仿真领域的首款产品。它接收文本、图片、视频、空间草图等多模态提示词,生成可交互探索的三维环境,同时输出用于视觉浏览的高斯泼溅数据和可供物理引擎运算的碰撞网格。不过随着渲染、仿真、规划的边界不断消融,Marble只是全行业技术演进长周期的起点。
五、边界消融的现状与未来发展方向
行业的技术变革还在持续推进,眼下最关键的趋势是:三类模型正在相互融合。业界逐渐达成共识——实现环境渲染、物理仿真、动作规划所依托的底层世界知识高度同源。沿用前面杯子的例子:真正掌握杯子在桌面的几何形态、材质、受力规律的模型,既能从任意角度渲染杯子画面,也能仿真杯子被碰倒的全过程,还能规划机械手抓取动作。三类应用只是同一套底层世界认知的三种落地形式。
举个例子:多家机器人实验室近期的研究越来越多地证实,理论上,预训练视频渲染模型可以作为环境与动作联合预测的底层基座,用一个模型同时预判环境变化与对应动作,打通渲染器和规划器的技术壁垒。World Labs的Marble已经实现单模型同时输出高斯泼溅画面与碰撞网格,打破了渲染器和仿真器的界限。全品类产品都在从被动生成输出转向交互式系统:渲染器开始支持根据动作指令生成画面,仿真器产出的环境可调控、可修改,规划器也从被动应激式决策升级为自主推演式决策。
技术演进的终极形态是大一统世界基础模型:单一基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构,又能生成动作序列,根据下游需求灵活切换输出形式。不过落地之路仍有重重挑战:各类模型数据储备不均衡——渲染模型坐拥海量互联网视频素材,仿真与规划模型却紧缺三维资源与机器人实操数据;优先优化视觉效果往往会损耗机器人、高精度仿真所需的物理精度。在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题,这也是World Labs迭代升级Marble的核心目标。
但行业的发展方向已经很明确了。从上世纪80年代末延续至今的那个核心猜想,正驱动着新一代科研攻关:只要构建出足够完备的世界模型,智能体就能感知、搭建环境并在其中自主行动。这份猜想的落地底气,来自三大技术路线的融合趋势——原本各自独立研发、且都已催生千亿级产业的渲染、仿真、规划赛道,正在逐步融为一体。随着三者边界彻底消融,它们将重塑更深层的产业格局:改变机器智能与客观物理世界的交互关系,推动空间智能完成一场漫长的进化。
语言让机器拥有了描述世界的能力,而世界模型终将让机器真正理解、构想客观世界,并与之推演、交互。

