万字实录解读:RL与CV世界模型的核心差异与前沿对比
世界模型正从理论概念演变为AI发展的核心架构。它旨在为AI智能体构建一个内在的模拟环境,使其能够理解物理世界的逻辑与因果关系,从而在自动驾驶、具身智能等关键领域实现更可靠的决策与规划。
近期,一场主题为“世界模型——通向通用智能的关键拼图”的线上研讨会汇聚了该领域的多位前沿学者。会议由清华大学智能产业研究院(AIR)助理教授赵昊主持,与宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊,共同展开深度探讨。
讨论从世界模型的定义与范畴切入,逐步比较了其与强化学习的异同,分析了通用视频生成模型的演进路径,并最终聚焦于自动驾驶与具身智能两大落地场景,剖析了构建世界模型的技术难点与未来方向。在具身智能领域,几位专家分享了极具前瞻性的见解:
郑文钊指出,具身智能与自动驾驶类似,对三维空间精度和物理规律建模有极高要求。未来的构建路径需融合重建与生成技术,并更精准地建模因果性。由于高质量交互数据稀缺,纯粹的数据驱动范式难以训练出符合物理规律的世界模型,因此探索如何将先验物理知识“注入”数据驱动模型,将成为关键趋势。
金鑫同样强调了物理真实性的核心地位。他提出,研究不应局限于数据驱动,可借鉴传统仿真与图形学领域的经验,将基于规则的物理建模方法与数据驱动的生成模型相结合,以构建兼具物理真实感与视觉逼真度的世界模型。
杨梦月则提出了另一种思路:在具身场景中,设计机制让智能体通过主动探索来归纳物理规律,并将其整合为可解释的因果模型,进而用于反事实推理与预测。廖依伊在认同上述观点的基础上,提出了一个根本性的技术路线选择问题:是否必须进行显式的三维建模?在数据充足的前提下,直接在二维表征层面学习交互可能更为高效,尤其是在处理衣物变形等非刚性物体任务时,三维建模的复杂度会急剧上升。如何有效融合2D与3D方法的优势,仍是悬而未决的挑战。
以下是本次圆桌讨论的核心内容梳理:
一、如何定义世界模型?
赵昊:欢迎各位。我的研究聚焦于计算机视觉、图形学与机器人的交叉领域。世界模型是串联这些方向的核心技术,我对其发展抱有坚定信念。
首先界定讨论范畴。最狭义层面指自动驾驶的世界模型;向外延伸是具身智能的世界模型;第三层可涵盖通用视频或传感器生成模型;最广义层面则是服务于通用智能体的世界模型。考虑到在座多位专家的计算机视觉背景,我们可以从自动驾驶场景切入,再向外扩展,不同领域背后的科学原理本质是相通的。
金鑫:谢谢赵老师。我主要研究空间智能与世界模型。我认为几位老师讨论的核心,都指向了“表征学习”——我们首先要理解世界,找到合适的表征(无论是3D或其他形式),再基于此构建蕴含物理规律的世界模型。这条路径的核心是“先理解,再构建”。我们团队近期关注的“解耦表征学习”,旨在将特征空间中的关键因素(如物体属性)分离并保持正交,这不仅能提升模型的可解释性,也为后续的生成与规划任务提供了便利。
廖依伊:大家好。我们近期研发的HUGSIM是一款基于3D高斯散射的仿真器,可与自动驾驶算法进行交互,这属于狭义的世界模型研究。我期待今天能从狭义到广义的演进中获得启发。
杨梦月:我的研究侧重因果理解与表征学习。当前大模型的训练本质是对数据分布的模仿,可能只捕捉到表象,易产生“幻觉”。而表征学习更追求可解释性,我们希望智能体能真正理解世界背后的构成要素及其关联。一旦掌握这种理解,智能体的决策便能基于事件背后的逻辑,而非简单的像素预测。
郑文钊:我长期致力于基于世界模型的自动驾驶研究。我认为,要迈向通用智能,世界模型的定义必须更加泛化。它在某种程度上是比语言模型更具泛化能力的认知框架。语言是人类定义的抽象符号系统,而世界模型需要寻找比语言更完备、更细致的世界表征方式,例如三维空间中的几何与物理属性。表征的选择,是构建世界模型的首要关键。
赵昊:杨老师提到当前表征可能缺乏因果关系,这确实值得深究。那么,完整的三维或四维(时空)世界表示,是否是构建世界模型的必要条件?
杨梦月:3D或4D表示提供了新视角,但它们与世界模型的严格定义之间仍有距离。严格意义上的世界模型,其逻辑应是“当前状态 + 智能体动作”映射到“下一状态”。目前的3D/4D生成技术虽能重建世界外观,但尚未充分融入动作与交互因素,因此与完整定义存在差距。构建交互层面的建模,是不可或缺的一环。
赵昊:我完全同意。CV领域的研究者有时过于关注渲染质量,而忽视了交互输入。不过,物理模型永远无法完美,从宏观意义上看,完全数据驱动的表征学习或许才是更普适的路径。郑老师,你有些研究仅在占用栅格(Occupancy)层面进行,不追求真实渲染,对此你怎么看?
郑文钊:狭义的世界模型是对环境的建模,核心是接收动作并输出反馈。但要迈向通用智能,定义必须更泛化。世界模型在某种程度上是更具泛化性的语言模型,其核心在于表征的选择。像JEPA、DINO等模型在语义描述上表现出色,但一个理想的世界模型表征,既要能进行抽象语义描述,也应具备三维建模能力,因为我们所处的世界本质上是三维的。
廖依伊:我赞成郑老师的观点。不同世界模型的核心区别,在于如何定义状态“x”。以视频生成为例,我们通常在潜空间中进行操作,但潜空间的设计目标未必能充分学习语义信息。这正是JEPA等工作的价值——它们通过自监督学习获取更具语义的特征。一个值得探讨的问题是:语义更丰富的表征是否更合理?直观上,如果潜空间的特征能更好解耦并蕴含丰富语义,后续的世界模型学习效率会更高。
赵昊:廖老师说得很好。尽管潜在向量没有显式的3D信息,但作为一种抽象表征,或许能找到其与物理属性的隐式关联。关于是否引入3D,核心争议在于“是否让模型更易学习与泛化”。金老师,你对世界模型表征学习的思路有何看法?
金鑫:理查德·费曼有句名言:“我无法创造我不理解的东西。”因此,找到合适的表征是第一步。我们团队研究“解耦表征学习”,正是希望分离特征层面中的混杂因素,提取关键信息。深度学习的本质是一个熵减过程,即去除冗余、保留核心。构建世界模型也是如此,需要找到这些关键因素与表征,它们可能无法完全理想化解耦,正如杨老师所说,其间可能存在复杂的关联与因果关系。
二、RL与CV的世界模型有何不同?
赵昊:接下来探讨,强化学习(RL)界和计算机视觉(CV)界所理解的世界模型,核心差异何在?动作因素可能是主要分水岭。
金鑫:我的理解是,强化学习中基于模型的“模型”,与CV领域用于自动驾驶的“模拟器”,核心功能都是模拟环境以供智能体进行交互训练。CV领域常说的“模拟器”,本质上就是对环境的动态模拟,这与赵老师强调的“动作”因素是呼应的。
杨梦月:我认为核心区别在于服务对象不同。CV界的核心是建模世界本身,关注如何精确刻画世界的形态与动态;而RL界的核心是智能体,建模世界的最终目的是让智能体掌握世界知识,从而优化其决策策略。RL领域有一个较新的观点叫“开放性”,实质是让智能体具备“自我提升”能力。当环境交互数据有限时,智能体需要主动探索,例如通过自问自答的方式学习,这个过程本身就是对世界模型的构建,但终极目标是提升智能体的决策与泛化能力。
赵昊:所以,RL研究者即使在没有视觉输入的情况下,将“智能体自己给自己出题”的推理过程也称为世界模型?
杨梦月:最广义的世界模型,可以建模任何规则,不限于物理规则。其核心目标是让智能体具备理解特定环境或任务底层规则的能力。因此,针对不同的环境与任务,可能需要发展对应的世界模型建模方法。
廖依伊:我的理解是,一方面,CV界更关注与图像像素平面相关的状态变量;而RL界的状态变量可以是任意形式的抽象表征。另一方面,RL在涉及世界模型时,通常不仅要预测下一状态,还要学习奖励函数。但目前CV界的视频生成研究,更侧重于预测下一时刻的视觉呈现“长什么样子”,很少考虑奖励机制。不过,像LeCun团队的“Navigation World Model”研究,就能通过对比生成图像与目标图像来构造奖励信号,进而服务于智能体导航。
赵昊:廖老师这点很关键:我们当前构建的多数世界模型,确实缺乏对奖励函数的建模。这是一个极具价值的研究方向。
郑文钊:我简要总结三点差异。第一,RL界的世界模型更像判别式模型,当智能体执行动作后,它输出一个奖励值以评估动作好坏。而CV界的世界模型更像生成式模型,它不评判行为,而是预测该行为会导致世界进入何种状态。第二,RL界的世界模型更多是一种局部模型,必须依赖智能体与环境交互获取反馈;而CV界的世界模型更接近独立运行的全局环境模型。第三,RL界的世界模型主要提供反馈机制,通常不涉及对动作本身的建模;而CV界的世界模型可以包含对动作的建模与预测。总体而言,CV界的世界模型定义更通用,涵盖世界与动作的联合建模;RL界的则更侧重服务于策略优化的反馈机制。
赵昊:我总结一下,当前CV界的世界模型已开始引入动作因素,但尚未产生变革性影响,关键缺口在于缺乏奖励机制。一旦明确定义奖励函数,现有的视频生成模型便能快速在自动驾驶、具身智能等领域发挥更大作用。
三、通用视频生成
赵昊:我们进入更具体的环节。第一个问题:通用视频生成模型,何时能演进为真正的世界模型?其发展速度远超预期。
廖依伊:关于如何成为真正的世界模型,答案相对清晰:需要具备动作条件和因果性。当前先进的视频生成方法多采用“三维时空注意力机制”,但真正的世界模型需满足“当前状态+动作→下一状态”的因果逻辑。近期已有研究尝试在注意力机制中约束时序依赖以强化因果关系,这是合理的探索方向。而动作因素的引入仍面临诸多开放性问题,例如环境中其他动态物体的动作该如何建模?
赵昊:我完全同意。动作条件下的通用视频生成模型若能持续优化,我们就离真正的世界模型更近一步。
郑文钊:我比较认同廖老师的观点。通用视频生成模型与世界模型目前最大的差距,在于对动作的反馈机制。具体包括:动作如何定义与表征?模型能否对动作做出准确、一致的反馈?反馈与动作之间是否存在合理的因果关系?
赵昊:我分享一个观察。我认为当前通用视频模型要发展为真正的世界模型,还缺少三项关键能力:精细编辑能力、文本-视频对齐能力和指令遵循能力。今年GPT-4o等模型展现的编辑能力令人震撼。如果通用视频生成模型能通过自然语言指令实现高精度、可控的内容编辑,那么无论其内部机制如何,它必然已经编码了关于世界的深层知识。因此,视频编辑能力的突破也至关重要。
杨梦月:因果关系是否为必需,需根据应用场景判断。如果要用模型来训练在真实世界决策的智能体,就需要模型贴近物理真实,遵循因果关系;但从艺术创作或内容生成的角度,可能无需严格遵循。关于动态建模,世界模型的定义本就非常广义。多智能体(Multi-Agent)系统就是完全动态的,这又回到了最初的问题:如何在动态中衡量不变性?可能需要引入奖励模型进行分析。
赵昊:杨老师的观点很有意思。CV研究者常认为能真实重建物理世界的才是好的世界模型,但用户使用Sora时,却常指令其生成违背物理规律的内容。或许生成绝对真实的内容并非唯一评价标准。
金鑫:几位老师从物理真实性、可编辑性等方面做了很好的分享。杨老师的观点让我联想到“反事实生成”能力。真正的世界模型若能生成全新场景或反事实结果,可能更接近通用智能,甚至涌现出超越训练数据的新能力。若能学习甚至超越人类总结的物理规则,将非常令人兴奋。
赵昊:金老师的观点很有启发性。但生成不符合物理规律的内容,是否真的代表模型具备了反事实推理能力?我觉得不一定,也可能是模型过拟合到了训练集中的视觉特效素材上。
廖依伊:我想提一个问题。若我们的终极目标是训练通用智能体,那么这些视觉特效数据对智能体而言是干扰噪声,还是有益的多样性数据?
杨梦月:今年有一个令我印象深刻的研究流派,叫做“开放性”。他们认为,在交互数据有限的情况下,要提升智能体决策能力,需要不断为其生成新任务和新环境。我曾与机器人团队交流,他们涉足视频生成,就是希望用生成的结果来训练机器人智能体,因为真实环境探索代价高昂。通过视频生成辅助生成训练数据,让智能体先获得一些先验和反事实知识,能极大提升样本效率。
赵昊:“开放性”,这个词很精准。关于视觉特效数据是否“有毒”,这很像NLP领域曾面临的问题。如何让通用视频生成模型在垂直领域做好对齐与净化,是迟早要面对的工程挑战。
四、自动驾驶的世界模型发展到哪儿了?
赵昊:回到我们的专业领域,聊聊自动驾驶。我们探索了这么多年,何时才能实现L4级自动驾驶?
金鑫:在我看来,学术界的特点是把技术做到60%或70%的成熟度,搭建好方法原型后,剩余的“最后一公里”工程化落地会交由工业界完成。自动驾驶的问题框架已相对清晰,接近落地阶段。从自动驾驶转向更具挑战的具身智能,要解决的问题更多、更复杂,这正是学术界需要重点突破的方向。
赵昊:金老师认为自动驾驶已发展到一定阶段,剩余工作由工业界大规模落地。我基本赞同,但认为仍存在一些关键技术瓶颈,例如预测的分辨率、视频生成长度以及实时性。我认为,今年最后一个关键问题是:“在自动驾驶世界模型中如何定义奖励函数”。一旦奖励建模完成,方法论就能形成完整闭环。
廖依伊:我的观点略有不同。金老师提到自动驾驶已有许多落地算法,我认同。但目前还没有特别有说服力的工作,能证明自动驾驶世界模型在训练闭环中真正发挥了不可替代的关键作用。现在CV界在世界模型研究中,关注点大多在图像生成或渲染质量上,而没有回到智能体训练本身。真正将世界模型纳入训练闭环,用它来支持智能体训练并证明其有效性的工作,目前还较为缺乏。
金鑫:我同意廖老师的观点。刚才说的是自动驾驶整体算法层面。而针对自动驾驶专用的世界模型,我认为它才刚起步。两年前,大家可能还在专注于收集数据、进行自监督训练,但逐渐发现数据无法穷尽所有边缘案例(Corner Cases)。于是业界开始转向借助闭环模拟器(即世界模型)来辅助训练与测试,这个思路转变其实才刚刚开始。
赵昊:总结廖老师的观点,下一步我们要走向大规模基于世界模型的智能体训练,我完全同意。这其中最核心的问题就是奖励函数如何定义。
郑文钊:我整体认同廖老师的观点。自动驾驶对世界模型的精度要求极高,例如泊车时可能需要厘米级精度,“看起来对”和“实际能用”是两回事。因此,关键问题是:如何实现对未来的精准预测,以及对动作的精准响应。从趋势看,三维与二维结合的混合路线可能是未来方向。第二点是泛化能力的提升,我们需要模型能泛化到数据未覆盖但符合物理规律的场景。第三点是如何用好世界模型,我认为世界模型在自动驾驶中的应用不应仅作为训练的奖励机制,更应转化为一种预测与规划范式。
赵昊:郑老师提到,当前自动驾驶世界模型的基准性能还比较低。这就引出一个问题:随着视觉基础模型的发展,自动驾驶专用数据集上的指标却难以上涨,大家觉得有什么新的突破机会?
郑文钊:有时可视化结果看起来不错,但量化指标只有20分,这正反映了自动驾驶对精准度的严苛标准。目前在基础层面,自动驾驶还缺乏成熟的、面向动态场景的感知基础模型。未来若能出现专为自动驾驶设计的感知基础模型,性能应该会有较大飞跃。
赵昊:长期来看,迟早会出现自动驾驶垂类的动态基础模型。自动驾驶场景是高度动态的,必然需要适配动态场景的专用模型。如果能有这类垂类的动态基础模型,当前各项感知、预测与规划任务的指标都可能大幅提升。
杨梦月:从因果推理的角度看,我们希望智能体具备反事实想象能力,那它就必须理解场景的因果结构。此外,再好的世界模型也无法捕捉现实世界的所有情况。因此,提升模型性能的一个重要方向是:不能仅依赖离线训练数据进行训练,还需要通过两方面发力——一方面要思考如何在真实系统中进行安全干预并获取真实反馈;另一方面,当决策执行后,将收到的真实反馈用于持续更新和优化当前的世界模型。
五、具身智能的世界模型应该如何构建?
赵昊:我们讨论最后一个话题:具身智能的世界模型应该如何构建。目前这个领域尚未形成明确的范式,需要一个能证明其巨大价值的“杀手级应用”来推动发展。
郑文钊:我认为具身智能的问题与自动驾驶有相似之处,比如都对三维空间精度有极高要求,甚至更为严格。第二,物理规律在具身智能中扮演更核心的角色。未来具身智能世界模型的发展,我认为有两个方向:一是实现重建与生成的深度融合,提升三维建模的精度与效率;二是更精准地建模与推断因果性。由于高质量机器人交互数据稀缺,纯数据驱动很难训练出符合物理规律的世界模型,因此需要探索如何将物理先验知识“注入”数据驱动模型,这可能是未来的关键趋势。
金鑫:我跟郑老师观点相似。物理真实性对具身智能的世界模型反而更为关键。我们的探索方向是:不仅依赖数据驱动,还借鉴传统仿真领域的经验,结合图形学中基于规则的物理建模方法与数据驱动的生成模型,以期构建出既保证物理真实性,又能实现外观逼真的世界模型。
杨梦月:我的想法是,在具身场景中,能否设计一种机制,让智能体通过主动探索来捕捉物理规律,将其整合成可解释的因果模型,再利用该模型进行反事实预测或规划。
赵昊:这个观点很有意思。今年存在“算法智能体化”的趋势。世界模型未必是客观被动、被物理规则固化的存在,它能否成为主动演变的“环境智能体”,在与数据的持续互动中自我优化?这是今年值得探索的方向。
廖依伊:我总体赞成金老师和郑老师的观点。从自动驾驶到通用具身智能,两者差异显著。自动驾驶中,智能体与环境的交互模式相对固定,场景也相对局限。但具身智能中,交互维度与场景复杂度大幅提升。我一直在纠结技术路线选择:是走2D路线,还是3D路线?核心问题在于:是否必须进行显式的三维建模?在2D表征层面能否学好复杂的物理交互?若有足够多模态的训练数据,2D学习交互可能更简单高效。如何做好2D与3D表征的结合,仍是待解的难题。
赵昊:完全同意。如果3D、4D仿真过于复杂且计算成本高昂,不进行显式建模或许是更务实的选择。
金鑫:还需要考虑训练复杂度和推理效率——机械臂等硬件的嵌入式算力有限,过于复杂的建模会带来部署上的麻烦。
赵昊:感谢四位老师的精彩分享。希望今天的讨论能给大家带来启发。