李飞飞辟谣世界模型:权威解读争议真相

2026-06-05阅读 0热度 0
世界模型

李飞飞与World Labs团队的最新文章,把“世界模型”这个被各路玩家反复提及但各有各说法的概念,拉出来系统性地理了一遍。她的核心动作是:给这个已经有些泛滥的术语建立一套清晰的功能分类,然后明确指出——最被忽视的那个类别,恰恰蕴藏着最大的价值和最难啃的骨头。

文章从强化学习经典的POMDP框架出发,将世界模型归纳为三大功能:渲染器、仿真器和规划器。李飞飞通过这套分类试图说明,这三类模型虽然都被贴上同一标签,但本质差别巨大。更重要的是,三者之间并不割裂,底层共用一套描述客观世界运行逻辑的知识体系,且随着技术演进的深入,它们的边界正在快速消融。

这个话题之所以值得专门拎出来聊,是因为它正处在目前AI领域最奇怪的一个位置:被提得最多、被用得最杂,却没有多少人给出过精准的定义。

▲李飞飞发布《世界模型的功能分类》文章推文(图源:X)

先快速梳理一下她的核心判断:

1、世界模型已经成为AI领域最重要、也最被滥用的术语之一,各领域在用它表述完全不同的东西,急需精准定义。

2、这个概念的底层技术定义来自强化学习的POMDP框架,本质就是一套由智能体、动作、环境状态和观测信息构成的交互闭环。

3、三类模型各有明确分工:渲染器输出给人看的像素画面,仿真器输出贴合物理规律的环境状态,规划器输出智能体的动作指令。

4、几何、物理、动力学——描述客观世界底层逻辑的知识体系,是三者的共用底层原理。

5、渲染器商业化最成熟但受限于能力上限,规划器前景最被看好但尚处早期,仿真器关注度最低却是衔接二者的桥梁与核心支柱。

6、仿真赛道上集中了AI领域的许多棘手的待解难题——三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本。

7、三类模型正在加速融合,而技术演进的终极方向是能够根据下游需求灵活切换输出形式的大一统世界基础模型。

8、在同一套模型架构中平衡渲染、仿真和规划的各项需求,是当今世界模型领域最核心的攻关课题。

01 世界并非由文字构筑而成

此前李飞飞曾提出空间智能是AI的下一个前沿方向,而世界模型是实现这一方向的必经之路。这次团队进一步追问:当下大量被投入研发、冠以“世界模型”之名的各类产物中,到底是由哪些功能模块构成了世界模型的核心能力,各个模块又分别承担什么作用?

大语言模型让机器拥有了出色的概念理解、词汇运用和逻辑推理能力,但无论是现实物理世界还是虚拟世界,都依靠另一套底层规律运行。语言模型学习的是文本的统计规律,世界模型学习的则是时空的统计规律——光线如何落在物体表面、相机视野之外的花园是什么模样、物体受外力后怎样运动并遵循物理定律。

这也直接导致了“世界模型”这个术语在当下AI领域陷入了尴尬的境地:被所有人挂在嘴边,但各方所指的内涵差距巨大。能生成绚烂但违反物理规律的火焰画面的视频模型、能即兴生成游戏逻辑的语言模型、能精确模拟燃烧过程的物理引擎——如今都一股脑地被装进了同一个“世界模型”的筐里。

古希腊学者始终无法统一世界的本源究竟是火、水还是不可分割的原子,其根源在于“世界”从来就没有唯一定义,它只是研究者为了推演论证而对所研究完整客观存在的代称。如今AI领域在亟需精准定义的关键阶段,恰恰承袭了这一难题。

02 分类体系底层的交互闭环

要理清这个概念的乱象,可以从一张早于所有相关技术的经典原理图入手。

几十年来,包括Sutton和Barto编写的经典教材在内的各类强化学习教科书,都在用这套图示描述智能体与环境的交互逻辑。这套框架的标准名称是部分可观测马尔可夫决策过程(POMDP),而“世界模型”最初的技术定义便诞生于这套理论体系。

智能体可以是人类、机器人或任何软件系统,它们执行动作,动作改变环境状态。关键点在于:智能体无法直接观测到完整的环境状态,只能获取观测信息——射入视网膜的光子、传感器传回的读数、视频画面中的像素。新的观测结果指导智能体生成新的动作,循环往复形成闭环。

“状态”一词需要拆开来看。它在不同学科中有不同定义。这里并不是指固态、液态、气态的状态,而是物理与机器人学定义的状态:对某一时刻客观环境的完整描述,囊括所有物体的位置、速度与各类属性。

环境状态是客观世界的底层全貌,理论上信息是完整的,但身处其中的智能体无法直接获知全部信息。观测是智能体对客观世界的局部感知,动作则是智能体基于感知做出的反馈行为。

从智能体、动作、环境状态、观测信息再回到智能体的这套闭环,奠定了现代世界模型的技术定义。

实际上,“世界模型”这个说法的历史更久,最早可以追溯到1943年肯尼斯·克雷克提出的人脑依靠构建现实的“微型模型”完成逻辑思考。到80年代末至90年代初,克雷克的想法被引入神经网络研究。

这套闭环同样可以解释当下五花八门的世界模型——如今各类冠以世界模型名称的产品,本质上都是这套闭环的不同实现方向,各自只输出闭环中的某一部分信息。

03 世界模型的三大功能分类

第一类是渲染器。它的任务是以像素画面的形式输出可供人类直接观看的观测信息,核心评判标准是视觉还原度。

根据文本提示生成电影级航拍画面的视频模型属于渲染器,Google的Genie 3、World Labs自己做的RTFM这类根据用户输入实时生成画面的交互式系统也归入该类。这类模型并不具备对三维结构的显性认知,它只生乘人眼所见画面,而不是客观真实结构。航拍视角下的建筑看起来毫无破绽,但如果你驾车穿行城下,建筑的内部结构就会出现崩坏。

第二类是仿真器。它输出的是环境状态——在几何、物理、动力学层面贴合客观规律的环境表征,可供人类与计算机程序运算、交互。渲染器只需要满足视觉效果,仿真器则必须恪守结构真实性:几何结构经得起校验,物理规则符合牛顿定律,物体动力学表现贴合现实规律。

仿真器同时服务两类使用者:建筑师、设计师、影视和游戏&开发者等从业者需要的远超视觉逼真度的精准环境;强化学习智能体、机器人控制器、自动驾驶等程序则将仿真环境当作规模化训练场地,用来测试现实中危险、成本高昂或根本无法落地的场景。

第三类是规划器。它输出的是动作指令——基于观测信息和预设目标,给智能体制定下一步的行动方案。从逻辑上看,它和渲染器互为逆过程。渲染器输入动作、输出观测画面;规划器输入观测信息、输出动作指令,补齐感知与动作的闭环链路。

视觉-语言-动作(VLA)模型、基于模型的控制系统,以及新近兴起的世界动作模型都属于规划器方向。它们能够为非结构化环境中的机器人制定行动策略。

当下落地量产的绝大多数世界模型产品都可以归入这三类。在实际应用中这套划分方式很有实用价值,但三类模型底层并非完全割裂。几何、物理、动力学——这套描述客观世界运行逻辑的基础知识,是三者共用的底层原理。理论上,一个能从任意角度渲染杯子的模型,也可以仿真杯子被推倒后的状态、规划机械手抓取杯子的动作。当下前沿研究也正在不断打破三类模型的边界。

▲World Labs世界模型三大功能模块拆解示意图(图源:World Labs)

04 仿真为何是核心支柱

在三类模型中,仿真器的大众关注度最低,却具备最深远的产业价值。这篇文章专门就这种关注度和重要度的失衡展开讨论。

渲染器是商业化落地最成熟的品类,多款文生图、文生视频产品正在快速渗透消费级和企业级市场。Google的Nano Banana模型将高质量图像生成能力带给了数以亿计的潜在用户。技术本身和相应的市场需求都已经得到了充分验证。但渲染器以视觉逼真度为优化目标,不追求物理精准性,这构成了它的能力上限:生成的画面观感出众,却无法用于建筑设计、机器人训练等需要严谨物理逻辑的场景。

规划器的发展前景最受期待,但技术尚在起步阶段,与高速发展的机器人学习领域深度绑定。近两年来机器人相关的演示视频效果亮眼,但客观来看,绝大多数演示都局限在条件严苛的实验室里——操作物品种类有限、任务流程简短,还远达不到真实落地所需的环境复杂度、场景多变性和长时间稳定运行要求。从实验室演示到能在厨房、仓库、手术室稳定作业的商用机器人,中间仍有巨大的技术鸿沟。

不过资本对规划赛道的投入巨大,一批资金充裕的创业公司争相落地通用规划系统,头部基础设施厂商也选择在仿真技术栈之上搭建规划能力。能够自主规划的机器人才具备实用价值,全行业都在争先攻克这项技术。

仿真技术是衔接渲染与规划的桥梁。如果说语言是世界的抽象概括、像素是世界的视觉投影,那么几何、物理与动力学规律就是世界本身。仿真器立足于客观规律搭建底层结构,渲染所需的外观画面、规划所需的动作结果,都可以从这套结构中衍生而来。换句话说,掌握了仿真能力的模型,既可以把对世界的理解转化为供人观看的像素画面,也能为实体智能体预判动作结果。而那些只专攻渲染或规划其中一个方向的模型,则无法同时具备这两项能力。

仿真的商业化市场空间非常庞大。仅英伟达的Omniverse,其面向工厂、仓储、供应链、数字孪生的潜在市场规模就被公司预估超过万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程研发、药物研发等领域,全都离不开仿真技术。

AI领域许多棘手的待解难题也集中在仿真赛道。标注了几何结构、材质属性、物理参数的三维数据集,体量远少于渲染模型训练所用的互联网视频素材。仿真与现实之间的域差问题始终难以根除。生成式仿真还新增了一项隐患:AI生成的几何模型看起来正常,实则可能存在面相交、尺寸失真等问题,最终导致物理运算结果违背常理。能够同时实现刚体、柔体、流体、织物交互的大规模多物理场仿真,算力成本远高于单一物理场景仿真。

World Labs推出的Marble是他们布局仿真领域的首款产品。该产品接收文本、图片、视频、空间草图等多模态提示词,生成可交互探索的三维环境,同时输出用于视觉浏览的高斯泼溅数据和可供物理引擎运算的碰撞网格。

当然,随着渲染、仿真、规划的边界不断消融,Marble只是全行业技术演进长周期的开端。

05 边界消融的现状与未来发展方向

行业的技术变革还在持续推进,当下最关键的发展趋势是三类模型正在相互融合。业界正在逐渐形成共识:实现环境渲染、物理仿真、动作规划所依托的底层世界知识是高度同源的。

沿用前文杯子的例子:一个真正掌握了杯子在桌面的几何形态、材质和受力规律的模型,既能从任意角度渲染杯子的画面,也能仿真杯子被碰倒的全过程,还能规划机械手抓取的动作。三类应用不过是对同一套底层世界认知的三种不同落地形式。

▲大一统世界模型架构图(图源:World Labs)

来看一个具体案例:多家机器人实验室近期的研究已越来越多地证实,从理论层面,预训练的视频渲染模型可以作为环境和动作联合预测的底层基座,用单一模型同时预测环境变化和对应动作,从而打通渲染器和规划器之间的技术壁垒。

World Labs的Marble已经在单模型上实现了同时输出高斯泼溅画面和碰撞网格,打破了渲染器与仿真器的界限。全品类产品都在从被动生成输出转向交互式系统——渲染器开始支持根据动作指令生成画面,仿真器产出的环境可调控、可修改,规划器也从被动应激式决策升级为自主推演式决策。

技术演进的终极形态,是大一统世界基础模型:单一的基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构,又能生成动作序列,而且可以根据下游需求灵活切换输出形式。

不过落地的路上仍有重重挑战。各类模型的数据储备严重不均衡:渲染模型坐拥海量的互联网视频素材,而仿真与规划模型却极度紧缺三维资源和机器人实操数据;优先优化视觉效果往往会损耗机器人和高精度仿真所需的物理精度。

在同一套模型架构中平衡各项需求,是目前世界模型领域最核心的攻关课题,也是World Labs迭代升级Marble的核心目标。

但行业的发展方向已经非常清晰。从上世纪80年代末延续至今的行业核心猜想,正驱动着新一阶段的科研攻关:只要构建足够完备的世界模型,智能体就能够感知、搭建环境并在其中自主行动。

这份猜测的落地底气,源自三大技术路线的融合趋势。原本各自独立研发、且均已催生千亿级产业的渲染、仿真、规划赛道,正在逐步走向融合。随着三者边界的彻底消融,它们将重塑更深层的产业格局——机器智能与客观物理世界的交互关系,并最终推动空间智能完成漫长的产业进化。

语言让机器拥有了描述世界的能力,而世界模型,终将让机器真正理解、构想客观世界,并与之推演、交互。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策