CVPR 2026世界模型论文精选:从生成到建模的核心演进与权威综述
视频生成技术正经历一场从“像素拟合”到“世界理解”的范式迁移。扩散模型与大规模基础模型虽已能产出视觉逼真的结果,但其核心挑战日益凸显:模型究竟是在学习世界的底层规律,还是仅仅在模仿表面的像素分布?
传统基于2D图像空间的逐帧生成方法,在相机运动控制、多物体交互一致性和长序列结构稳定性方面存在固有瓶颈。这些局限性的根源,往往在于模型缺乏对三维空间结构、时间演化和物理规律的内在表征能力。
“世界模型”因此成为视觉生成与AI系统研究的前沿。其目标超越了视觉合成,旨在构建一个能够统一描述空间、时间乃至物理因果关系的内部表示,从而支持推理、预测与决策。这标志着研究重心从“生成逼真画面”转向“建模合理世界”。
这一演进体现在多个维度:表示层面从2D像素迈向3D/4D几何;建模目标从生成扩展到因果推理与物理一致性;学习方式从依赖标注转向从真实视频中提取可迁移知识;评估体系也从单一视觉指标转向对世界建模能力的多维度衡量。
CVPR 2026的一系列研究集中反映了这一趋势。这些工作技术路径各异,有的聚焦4D几何建模,有的强调物理对齐与因果学习,有的探索从真实视频中学习世界知识,还有的致力于构建统一的评估基准。它们共同指向一个目标:推动模型从“内容生成工具”演化为“可信世界模拟器”。
下文将从几个关键技术角度,系统梳理这些代表性工作,并探讨一个核心问题:当我们致力于“生成世界”时,我们究竟在构建何种模型?
世界在模型里到底长什么样?
实现世界理解,首要解决的是世界表示问题。2D像素表示显然不足,研究正转向更高维的几何结构表征。
复旦大学、香港大学与腾讯ARC团队的《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》,直接针对当前视频生成的痛点:2D图像空间建模导致相机与物体运动难以统一控制,生成稳定性差。他们的解决方案是将视频表征为“3D空间+时间”的统一世界状态,而非独立帧序列。其核心是一种“4D几何控制”表示:用静态背景点云描述场景结构,用带时序的3D高斯轨迹描述动态物体,从而构建统一的4D世界模型。再将几何信息转化为控制信号,驱动视频扩散模型生成。这实现了从“基于像素的合成”到“基于结构的生成”的范式转换,显著提升了可控性与时序一致性。
然而,构建4D世界模型通常依赖多视角数据或复杂预处理,限制了可扩展性。中国科学院自动化所与CreateAI的《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》旨在突破这一瓶颈。其核心思路是直接利用“野外”单目视频构建4D世界模型。该框架能从普通视频中恢复场景3D结构并建模动态信息,形成完整4D表示,支持新视角合成与多种下游任务。这意味着4D建模可以从昂贵的数据采集转向利用大规模、易得的真实视频,实用性大幅增强。
面对长序列,另一挑战浮现:长视频3D重建。现有方法在短序列或离线场景尚可,但对上千帧的长视频,常出现注意力衰减、尺度漂移和误差累积。香港科技大学(广州)、地平线机器人等团队的《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》提出了一个流式、规范解耦的视觉几何框架。它摒弃了将所有帧锚定到首帧的做法,通过“关键帧相对建模”让局部序列独立建模,再统一至全局结构。同时,它将尺度学习与几何预测解耦,并通过周期性缓存刷新等机制,实现了在严格在线(无未来帧)条件下稳定处理上千帧数据的能力,为自动驾驶、AR/VR等需持续环境建模的应用提供了新方案。
模型有没有学到可以迁移的世界规律?
拥有世界表示后,下一步是让模型理解世界中运行的通用规律。这要求模型不仅能“感知”,还要能“推理”,从观察中提炼可迁移知识。
北京交通大学与字节团队的《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》便将重点置于“知识学习”。该研究指出,现有视频模型虽画面逼真,却缺乏对物体运动规律与交互关系的理解,泛化能力弱。VideoWorld 2框架的核心,是从大规模无标注真实视频中,自主学习物理规律与时序结构,并将这些知识编码为可复用的表示。这使模型从“会生成”向“会理解”迈进了一步,更贴近人类通过观察学习世界的方式。
理解物理规律是构建可信世界模型的关键。中山大学、鹏城实验室等团队的《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》显式引入了物理约束。其“渐进式物理对齐机制”分为两步:先在语义层面提取文本描述的物理规律(如运动类型),再将这些规律精确对齐到视频的具体区域与时间过程。模型还采用“物理专家混合机制”,让不同模块专注学习不同类型的物理规律。通过引入视觉语言模型的推理能力,该框架使生成的动态场景不仅视觉逼真,更符合真实物理规律。
将物理一致性推向极致的,是四川大学、香港理工大学等团队的《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。该工作认为,许多物理过程本质是按因果顺序发展的事件链。因此,它提出了一个“事件中心”生成框架:先将复杂物理过程拆解为多个有因果关系的子事件,并引入物理公式作为约束;再将这些事件转化为时间对齐的文本与视觉提示,以引导视频在不同事件间平滑过渡。这种方法让视频生成从“生成结果”变为“生成符合物理规律的动态过程”,在因果一致性上表现更优。
能不能精确控制生成的世界?
理解世界之后,还需能够精确操控。对生成过程的精准控制,是世界模型走向实际应用的前提。
西湖大学与南洋理工大学的《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control》聚焦于控制本身。现有视频扩散模型虽有强大的“世界先验”,却难以精确控制相机运动,且时空一致性差。该研究提出的WorldForge框架,其巧妙之处在于完全无需重新训练模型,仅在推理阶段进行增强。它通过在扩散去噪过程中加入递归优化来贴合目标相机轨迹;利用光流区分“运动”与“外观”,只控制运动部分;并通过双路径对比机制自动修正偏差。这种“即插即用”的方式,以极低成本实现了对相机轨迹的精确控制,并保持了视觉质量。
模型不仅表示世界,还要「用世界做事」
终极目标是让世界模型不仅能模拟世界,还能基于模拟进行决策与交互,成为智能体的“数字孪生”环境。
华中科技大学与小米EV团队的《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World》便致力于此。传统自动驾驶系统将“场景预测”与“路径规划”分离处理,易导致误差累积。DriveLaW框架则将二者统一在一个“潜在驾驶世界”中。模型在潜在空间学习场景动态演化规律,并直接在此空间中进行决策推理,无需先生成完整视频。这打破了预测与决策的壁垒,使世界模型真正参与决策闭环,提升了复杂场景下的效率与鲁棒性。
在机器人操作领域,物理一致性至关重要。AMAP CV Lab的《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment》构建了一个具备物理对齐能力的交互式世界模型。该模型基于扩散Transformer架构,在生成视频的同时引入物理约束,确保机器人操作过程既真实又合理。它还支持根据输入指令控制交互过程,并通过物理感知训练机制,让模型更关注“物理合理性”而非单纯视觉质量。这使世界模型从生成工具,发展为能用于机器人决策模拟的基础模型。
然而,自动驾驶与机器人领域共同面临一个难题:真实世界中关键危险场景或长尾情况数据稀缺。中科院自动化所、香港大学OpenDriveLab与小米EV团队的《SimScale: Learning to Drive via Real-World Simulation at Scale》提供了一种思路。该框架利用真实数据构建仿真环境,并在此基础上自动生成大量新驾驶场景,尤其是罕见的长尾场景。通过联合训练真实数据与仿真数据,有效缩小了仿真与现实间的差距,增强了模型的安全性与泛化能力。这是一种以数据驱动方式,规模化解决关键场景覆盖问题的有效路径。
如何知道一个模型真的在「建模世界」?
随着世界模型能力日益复杂,如何系统、全面地评估其“世界建模能力”,成为一个基础且关键的问题。
中国科学技术大学、浙江大学等机构的《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》旨在建立统一标准。该框架从视觉感知质量、条件与4D对齐能力、物理真实感、时空一致性等多个维度综合评价模型。它支持多种输入模态(文本、图像、视频),并通过统一机制将不同模型映射到同一评测空间进行比较,甚至引入大语言模型参与判断,使评估更接近人类主观认知。这推动研究重点从单纯的生成效果,转向对世界建模能力的全面衡量。
WorldBench Team的《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World》则更专注于自动驾驶领域。该框架从生成、重建、动作跟随及下游任务表现等多个角度,系统评估世界模型的综合能力,并结合人类偏好进行评价。它构建了大规模数据集并引入自动评估模型,实现了规模化、可解释的评测。这项研究也揭示了当前模型在不同能力间存在的权衡,为未来研究指明了方向。
除了评估,模型自身的表示结构也决定了其理解与规划能力。ANU和MBZUAI团队的《GeoWorld:Geometric World Models》提出了一个新颖观点:将世界模型从欧几里得空间,扩展到具有层级结构的几何空间(如双曲空间)中。在这种几何能量模型中,状态间的复杂关系得以更自然地表达。进行预测或规划时,模型沿“测地线”推理,而非逐步生成状态,这有效缓解了长时预测中的误差累积问题,为基于世界模型的决策规划提供了新思路。
最后,一个实用性问题是如何提升现有模型的性能。西湖大学的《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》发现,用短视频训练的扩散模型直接生成长视频时,会出现质量下降,其根源在于帧间相对位置和上下文长度超出了训练分布(O.O.D.)。他们提出的FreeLOC框架,无需重新训练模型,仅在推理阶段通过“视频相对位置重编码”和“分层稀疏注意力”等机制进行修正,并自适应地针对敏感层进行调整,从而显著提升了长视频生成的稳定性与质量。这是一种低成本提升模型实用性的有效方法。
纵观全局,从精确的4D几何控制,到对物理规律和因果关系的理解,再到用于决策规划与系统评估,世界模型的研究正沿着从“表示”到“理解”再到“应用”的路径快速演进。中国科学院自动化所等团队的《Neoverse: Unposed 4D World Modeling from Monocular Video》可视为一个注脚,它通过前馈式重建与生成联合训练,让模型能直接利用海量单目视频,正是这条路径走向大规模实用化的重要一步。
这些工作共同描绘出一个清晰趋势:视频生成技术正从追求视觉逼真的“像素合成”,迈向构建内在合理的“世界模拟”。未来的模型,或许将不再只是一个内容生成工具,而是一个能够理解物理规则、进行因果推理、并支持复杂决策的数字世界基底。这不仅是技术的演进,更是对机器认知世界这一根本问题的深度探索。














