CVPR 2026世界模型论文精选：从生成到建模的核心演进与权威综述

2026-05-17阅读 0热度 0

世界模型

视频生成技术正经历一场从“像素拟合”到“世界理解”的范式迁移。扩散模型与大规模基础模型虽已能产出视觉逼真的结果，但其核心挑战日益凸显：模型究竟是在学习世界的底层规律，还是仅仅在模仿表面的像素分布？

传统基于2D图像空间的逐帧生成方法，在相机运动控制、多物体交互一致性和长序列结构稳定性方面存在固有瓶颈。这些局限性的根源，往往在于模型缺乏对三维空间结构、时间演化和物理规律的内在表征能力。

“世界模型”因此成为视觉生成与AI系统研究的前沿。其目标超越了视觉合成，旨在构建一个能够统一描述空间、时间乃至物理因果关系的内部表示，从而支持推理、预测与决策。这标志着研究重心从“生成逼真画面”转向“建模合理世界”。

这一演进体现在多个维度：表示层面从2D像素迈向3D/4D几何；建模目标从生成扩展到因果推理与物理一致性；学习方式从依赖标注转向从真实视频中提取可迁移知识；评估体系也从单一视觉指标转向对世界建模能力的多维度衡量。

CVPR 2026的一系列研究集中反映了这一趋势。这些工作技术路径各异，有的聚焦4D几何建模，有的强调物理对齐与因果学习，有的探索从真实视频中学习世界知识，还有的致力于构建统一的评估基准。它们共同指向一个目标：推动模型从“内容生成工具”演化为“可信世界模拟器”。

下文将从几个关键技术角度，系统梳理这些代表性工作，并探讨一个核心问题：当我们致力于“生成世界”时，我们究竟在构建何种模型？

世界在模型里到底长什么样？

实现世界理解，首要解决的是世界表示问题。2D像素表示显然不足，研究正转向更高维的几何结构表征。

复旦大学、香港大学与腾讯ARC团队的《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》，直接针对当前视频生成的痛点：2D图像空间建模导致相机与物体运动难以统一控制，生成稳定性差。他们的解决方案是将视频表征为“3D空间+时间”的统一世界状态，而非独立帧序列。其核心是一种“4D几何控制”表示：用静态背景点云描述场景结构，用带时序的3D高斯轨迹描述动态物体，从而构建统一的4D世界模型。再将几何信息转化为控制信号，驱动视频扩散模型生成。这实现了从“基于像素的合成”到“基于结构的生成”的范式转换，显著提升了可控性与时序一致性。

然而，构建4D世界模型通常依赖多视角数据或复杂预处理，限制了可扩展性。中国科学院自动化所与CreateAI的《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》旨在突破这一瓶颈。其核心思路是直接利用“野外”单目视频构建4D世界模型。该框架能从普通视频中恢复场景3D结构并建模动态信息，形成完整4D表示，支持新视角合成与多种下游任务。这意味着4D建模可以从昂贵的数据采集转向利用大规模、易得的真实视频，实用性大幅增强。

面对长序列，另一挑战浮现：长视频3D重建。现有方法在短序列或离线场景尚可，但对上千帧的长视频，常出现注意力衰减、尺度漂移和误差累积。香港科技大学（广州）、地平线机器人等团队的《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》提出了一个流式、规范解耦的视觉几何框架。它摒弃了将所有帧锚定到首帧的做法，通过“关键帧相对建模”让局部序列独立建模，再统一至全局结构。同时，它将尺度学习与几何预测解耦，并通过周期性缓存刷新等机制，实现了在严格在线（无未来帧）条件下稳定处理上千帧数据的能力，为自动驾驶、AR/VR等需持续环境建模的应用提供了新方案。

模型有没有学到可以迁移的世界规律？

拥有世界表示后，下一步是让模型理解世界中运行的通用规律。这要求模型不仅能“感知”，还要能“推理”，从观察中提炼可迁移知识。

北京交通大学与字节团队的《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》便将重点置于“知识学习”。该研究指出，现有视频模型虽画面逼真，却缺乏对物体运动规律与交互关系的理解，泛化能力弱。VideoWorld 2框架的核心，是从大规模无标注真实视频中，自主学习物理规律与时序结构，并将这些知识编码为可复用的表示。这使模型从“会生成”向“会理解”迈进了一步，更贴近人类通过观察学习世界的方式。

理解物理规律是构建可信世界模型的关键。中山大学、鹏城实验室等团队的《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》显式引入了物理约束。其“渐进式物理对齐机制”分为两步：先在语义层面提取文本描述的物理规律（如运动类型），再将这些规律精确对齐到视频的具体区域与时间过程。模型还采用“物理专家混合机制”，让不同模块专注学习不同类型的物理规律。通过引入视觉语言模型的推理能力，该框架使生成的动态场景不仅视觉逼真，更符合真实物理规律。

将物理一致性推向极致的，是四川大学、香港理工大学等团队的《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。该工作认为，许多物理过程本质是按因果顺序发展的事件链。因此，它提出了一个“事件中心”生成框架：先将复杂物理过程拆解为多个有因果关系的子事件，并引入物理公式作为约束；再将这些事件转化为时间对齐的文本与视觉提示，以引导视频在不同事件间平滑过渡。这种方法让视频生成从“生成结果”变为“生成符合物理规律的动态过程”，在因果一致性上表现更优。

能不能精确控制生成的世界？

理解世界之后，还需能够精确操控。对生成过程的精准控制，是世界模型走向实际应用的前提。

西湖大学与南洋理工大学的《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control》聚焦于控制本身。现有视频扩散模型虽有强大的“世界先验”，却难以精确控制相机运动，且时空一致性差。该研究提出的WorldForge框架，其巧妙之处在于完全无需重新训练模型，仅在推理阶段进行增强。它通过在扩散去噪过程中加入递归优化来贴合目标相机轨迹；利用光流区分“运动”与“外观”，只控制运动部分；并通过双路径对比机制自动修正偏差。这种“即插即用”的方式，以极低成本实现了对相机轨迹的精确控制，并保持了视觉质量。

模型不仅表示世界，还要「用世界做事」

终极目标是让世界模型不仅能模拟世界，还能基于模拟进行决策与交互，成为智能体的“数字孪生”环境。

华中科技大学与小米EV团队的《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World》便致力于此。传统自动驾驶系统将“场景预测”与“路径规划”分离处理，易导致误差累积。DriveLaW框架则将二者统一在一个“潜在驾驶世界”中。模型在潜在空间学习场景动态演化规律，并直接在此空间中进行决策推理，无需先生成完整视频。这打破了预测与决策的壁垒，使世界模型真正参与决策闭环，提升了复杂场景下的效率与鲁棒性。

在机器人操作领域，物理一致性至关重要。AMAP CV Lab的《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment》构建了一个具备物理对齐能力的交互式世界模型。该模型基于扩散Transformer架构，在生成视频的同时引入物理约束，确保机器人操作过程既真实又合理。它还支持根据输入指令控制交互过程，并通过物理感知训练机制，让模型更关注“物理合理性”而非单纯视觉质量。这使世界模型从生成工具，发展为能用于机器人决策模拟的基础模型。

然而，自动驾驶与机器人领域共同面临一个难题：真实世界中关键危险场景或长尾情况数据稀缺。中科院自动化所、香港大学OpenDriveLab与小米EV团队的《SimScale: Learning to Drive via Real-World Simulation at Scale》提供了一种思路。该框架利用真实数据构建仿真环境，并在此基础上自动生成大量新驾驶场景，尤其是罕见的长尾场景。通过联合训练真实数据与仿真数据，有效缩小了仿真与现实间的差距，增强了模型的安全性与泛化能力。这是一种以数据驱动方式，规模化解决关键场景覆盖问题的有效路径。

如何知道一个模型真的在「建模世界」？

随着世界模型能力日益复杂，如何系统、全面地评估其“世界建模能力”，成为一个基础且关键的问题。

中国科学技术大学、浙江大学等机构的《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》旨在建立统一标准。该框架从视觉感知质量、条件与4D对齐能力、物理真实感、时空一致性等多个维度综合评价模型。它支持多种输入模态（文本、图像、视频），并通过统一机制将不同模型映射到同一评测空间进行比较，甚至引入大语言模型参与判断，使评估更接近人类主观认知。这推动研究重点从单纯的生成效果，转向对世界建模能力的全面衡量。

WorldBench Team的《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World》则更专注于自动驾驶领域。该框架从生成、重建、动作跟随及下游任务表现等多个角度，系统评估世界模型的综合能力，并结合人类偏好进行评价。它构建了大规模数据集并引入自动评估模型，实现了规模化、可解释的评测。这项研究也揭示了当前模型在不同能力间存在的权衡，为未来研究指明了方向。

除了评估，模型自身的表示结构也决定了其理解与规划能力。ANU和MBZUAI团队的《GeoWorld：Geometric World Models》提出了一个新颖观点：将世界模型从欧几里得空间，扩展到具有层级结构的几何空间（如双曲空间）中。在这种几何能量模型中，状态间的复杂关系得以更自然地表达。进行预测或规划时，模型沿“测地线”推理，而非逐步生成状态，这有效缓解了长时预测中的误差累积问题，为基于世界模型的决策规划提供了新思路。

最后，一个实用性问题是如何提升现有模型的性能。西湖大学的《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》发现，用短视频训练的扩散模型直接生成长视频时，会出现质量下降，其根源在于帧间相对位置和上下文长度超出了训练分布（O.O.D.）。他们提出的FreeLOC框架，无需重新训练模型，仅在推理阶段通过“视频相对位置重编码”和“分层稀疏注意力”等机制进行修正，并自适应地针对敏感层进行调整，从而显著提升了长视频生成的稳定性与质量。这是一种低成本提升模型实用性的有效方法。

纵观全局，从精确的4D几何控制，到对物理规律和因果关系的理解，再到用于决策规划与系统评估，世界模型的研究正沿着从“表示”到“理解”再到“应用”的路径快速演进。中国科学院自动化所等团队的《Neoverse: Unposed 4D World Modeling from Monocular Video》可视为一个注脚，它通过前馈式重建与生成联合训练，让模型能直接利用海量单目视频，正是这条路径走向大规模实用化的重要一步。

这些工作共同描绘出一个清晰趋势：视频生成技术正从追求视觉逼真的“像素合成”，迈向构建内在合理的“世界模拟”。未来的模型，或许将不再只是一个内容生成工具，而是一个能够理解物理规则、进行因果推理、并支持复杂决策的数字世界基底。这不仅是技术的演进，更是对机器认知世界这一根本问题的深度探索。

CVPR 2026世界模型论文精选：从生成到建模的核心演进与权威综述

世界在模型里到底长什么样？

模型有没有学到可以迁移的世界规律？

能不能精确控制生成的世界？

模型不仅表示世界，还要「用世界做事」

如何知道一个模型真的在「建模世界」？

相关阅读

最新教程

最新资讯