通用4D世界模型NeoVerse评测:单目视频秒变4D大片,推理提速8倍
导读: 想象一下,只需要一段普通手机拍摄的单目视频,AI 就能瞬间为你构建出一个可交互、可编辑、可全视角观看的 4D 世界。
中科院自动化所和 CreateAI 联合团队最近放了个大招——NeoVerse,一个通用的 4D 世界模型。这玩意儿的厉害之处在于,它不再像以前那样依赖昂贵、难采集的多视角数据或复杂的位姿预处理,而是直接从互联网上扒下来的 100 万条“野外”单目视频里学习,硬是把视频重建和生成推到了新的高度。
一、论文概述
论文名称:NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
论文链接:https://arxiv.org/pdf/2601.00393
项目地址:https://neoverse-4d.github.io/
NeoVerse 的思路,就是把这件事做成一条可规模化的训练流水线,让模型能持续利用海量野外视频来升级自己。论文的图 1 很清晰:先做前向的动态 4D 高斯表示(4DGS)重建,再从新视角渲染出低质量的退化渲染结果,把这些作为条件喂给生成模型。训练时,就用原始视频做目标,逼着生成模型从这些低质量渲染中,学会生成高质量的新视角结果。
二、为什么需要 NeoVerse
4D 世界模型,说白了就是把 3D 空间(长、宽、高)再加个时间维度(1D)融合起来的场景建模技术。它要干的事,是对动态场景做时空一体化的表征:既要还原三维空间结构,又要捕捉时间维度的运动变化,最终实现对真实世界的动态数字化复刻。
问题来了,之前的 4D 世界模型,为啥就吃不下海量的野外视频?论文里点明了两个硬伤:
- 数据可扩展性有限。很多工作依赖难搞的多机位动态数据,这直接锁死了模型的泛化能力和性能上限。
- 训练可扩展性有限。另一类方法离不开繁琐的离线预处理,比如算深度、做重建、加 3D 检测什么的,既费计算资源,又让训练方案变得僵化。
NeoVerse 就是冲着这两点来的,思路很直接:把整条从重建到生成的训练流水线,设计成可扩展、可端到端的形式,让模型能直接利用“廉价又多样”的野外单目视频持续学习,而不是被数据形态或离线流程拖住后腿。
三、核心技术
总体框架
如果只靠生成模型,直接从单目视频“脑补”新视角,为啥容易漂移、闪烁、细节糊掉?
NeoVerse 的策略很聪明:把任务拆成两步走。先用重建端给出一个几何上自洽的动态世界骨架(4DGS),然后用生成端把骨架渲染出来、但满是缺陷的画面,提升成高质量视频。
图 2 展示了这条链路:重建端是 pose-free、feed-forward 的 4DGS 重建;生成端则把 4DGS 在新视角渲染出的退化渲染结果,作为条件输入扩散模型。训练时,用“退化条件 → 原视频帧”作为监督对,让模型学会从低质量渲染生成高质量结果。
为什么要“双向运动建模”
很多人会直觉地认为,动态重建只要“逐帧估算”就行了。但单目视频里最难搞的是时间一致性:既要让物体在 t→t+1 时连贯,也要让它在 t→t−1 时同样合理,不然中间帧插值就会抖、会错位。
论文讲得很清楚:他们显式地区分t→t+1 与 t→t−1 的瞬时运动,用双向预测来服务“时间插值”,可不是为了多一个分支。公式 (1) 表明,把帧特征沿时间切成两段,分别做一次 Cross-Attention,得到前向 motion feature 和后向 motion feature,分别刻画“往前一帧怎么动”和“往后一帧怎么动”。
公式 (2) 说明,每个高斯点不只是“位置/旋转/尺度/颜色”这种静态属性,还带着双向线速度 (v_i^+, v_i^-),双向角速度 (w_i^+, w_i^-),以及一个生命周期 (tau_i)。这意味着模型不光知道“点在哪里”,还知道“它往前/往后会怎么走”,并且清楚“这个点在时间上该持续多久”。
训练为什么能更快
这里的关键不是“少算几帧”,而是少算的同时还能保证时序正确。论文说得明白:长视频如果逐帧在线重建,会成为训练瓶颈,所以只取 K 个关键帧做重建输入,但渲染覆盖全部 N 帧,因为渲染比网络计算高效。
那非关键帧怎么来?公式 (3)(4)(5) 的意义在于:用双向速度/角速度,把关键帧的高斯“平移/旋转”到任意时间戳(这里默认短时间内运动近似线性)。
特别值得一提的是公式 (5) 里的 (tau_i)。它控制 opacity 的衰减,让高斯点在时间上自然淡入淡出,避免某些点突然出现/消失造成闪烁。论文还解释了,当 (tau_i-1) 时衰减几乎没有,否则,(tau_i) 衰减迅速。
没有多视角真值,训练对从哪来?
单目视频没有多视角的 GT(真值),生成模型凭什么学会“把新视角渲染变好”?
生成模型需要学习“从低质量新视角渲染到高质量新视角”的映射,所以必须构造出这种训练对。多视角数据好办,但野外单目视频就得自己模拟退化。
图 3 画的三类退化可不是随便挑的,它们基本对应单目重建/渲染中最常见的错误形态:
遮挡缺失(图 3 - a):通过深度判断从新轨迹看哪些高斯不可见,直接裁剪掉再渲染回原视角,得到“该缺的地方缺掉”的遮挡退化。
飞点与畸变(图 3 - b、c):先在新轨迹渲染深度并做平均滤波,再按滤波深度调整高斯中心;渲染回原视角会出现边缘飞点,滤波核更大还能模拟更宽的畸变。
这一步的价值在于:它让模型见识了“野外单目重建真实会出现的坏条件”,训练就不再依赖昂贵的多机位数据,从而更可规模化。
生成端为什么“既听镜头指挥、又能修伪影”
要让扩散模型真正“听懂镜头轨迹”,光有 RGB 远远不够。论文把条件做成多模态的:RGB、Depth、由 opacity 二值化的 Mask(指示空洞区域),并额外计算 Plücker embedding 来显式提供 3D 相机运动信息。
然后引入一个控制分支来注入这些条件,训练时只训练控制分支、冻结原视频生成模型——这样做一方面是为了训练效率,另一方面让整个方案能接入更强的蒸馏或 LoRA 加速生成。
四、实验与应用
重建效果
先明确一点:这里的重建指标其实都在回答同一个问题——你从视频里还原出来的 3D/4D 世界,渲染回去像不像、稳不稳、有没有“假细节”。
PSNR/SSIM 越高,通常表示画面更接近真实、结构更一致;LPIPS 越低,表示从“人眼感知”角度更接近真实,更少“看起来不对劲”的伪影。
如表 1(静态),与 VRNeRF 和 Scannet++ 相比,论文的 PSNR/SSIM 更高、LPIPS 更低,说明它不仅更清晰,也更“像真”。
如表 2(动态),动态场景对重建更具挑战:场景中存在物体运动与频繁遮挡,模型不仅要还原几何结构,还要保证时间上的连续一致,因此更容易出现伪影或指标下降。但在 ADT 与 DyCheck 两个动态数据集上,NeoVerse 仍取得了表中最优结果。更关键的是,表注中 † 标明部分对比方法需要额外输入相机位姿,而 NeoVerse 在 pose-free(无需位姿输入) 的设定下依然优于这些“输入条件更强”的基线,这凸显了它在真实野外单目视频场景中的竞争力。
生成效果
一个现实的痛点是:镜头一旦大幅移动,新视角生成要么轨迹飘移,要么画质糊掉或闪烁。论文中指出:相关工作通常存在“生成质量 vs 轨迹可控性”的权衡。
图 4 就是这种权衡的直观证据:Trajectory Crafter 更像“重建驱动”,轨迹可控性好,但生成质量更差;ReCamMaster 更像“纯生成”,画质好但轨迹控制不精确;NeoVerse 试图两者兼得,实现了更好的生成质量,黄色框标出了其他方法的伪影或问题区域。
表 3(VBench)则把“好不好看、稳不稳”量化了,包括主观一致性、背景一致性、时间闪烁、运动平滑等维度。很有价值的一点是,它把推理时间拆成了 Reconstruction / Generation / Total 三部分。生成端时间基本稳定在 18s,而关键帧越多,重建端耗时越长;这使得“质量 vs 速度”可以通过关键帧数直接调节。
哪些设计真的在贡献效果
表 4(消融)不是在简单“去掉模块看掉点”,它回答了两件事:
双向运动建模有没有必要? 去掉它(w/o Bidirectional Motion)性能下降,论文还明确解释了做法:跳过公式(1)直接从帧特征预测 motion,会带来掉点,证明 motion 建模机制有效。
正则有没有必要? 去掉 regularization 会更差,论文解释这是为了防止模型学“透明高斯走捷径”。
纯重建(Reconstruction part) vs 全流程(w/ Generation),后者在 DyCheck 上从 11.56 提升到 14.59(PSNR),说明“生成阶段不是锦上添花,而是在系统层面显著拉升最终质量”。
图 7 表明:如果不训练模拟退化样本,生成模型会“相信条件里的几何伪影”,导致 ghosting 或模糊;加入退化模拟后,模型学会抑制伪影,并在遮挡/扭曲区域“补出更真实的细节”。
下游应用
因为 NeoVerse 有一个“随时间变化的 4D 表示”,所以它不仅能渲染,还能做空间与时间上的操作。
3D tracking(图 9):用预测的 3D flow 在相邻帧之间关联最近的高斯点,从而实现 3D 跟踪可视化。
Video editing(图 10):因为生成端有二值 mask 条件 + 文本条件,所以可以在分割模型辅助下做视频编辑,示例是“白车改红车”“茶壶变透明”。
Video stabilization / super-resolution(图 1):稳定的核心是“平滑预测相机轨迹”;超分的核心是“4D 高斯渲染分辨率可灵活提高,再用生成端出更高分辨率视频”。
它为什么更“像能做成产品”的路线?
NeoVerse 不只是提出一个结构,而是把“数据—训练—评测”按可规模化路线补齐了,这也是它能在大镜头运动下同时做到“轨迹可控 + 画质稳定”的重要前提。
五、结论
三点启发
- “单目 + 大规模”可行的关键,不在于网络多大,而在于训练对怎么造:在线退化模拟把“无 GT”的问题变成了“可监督”。
- 时间一致性要服务“插值与效率”:双向运动不仅是精度点,更直接支撑了“稀疏关键帧重建 + 全帧渲染”的训练提速策略。
- 生成模型不一定要全量重训:用控制分支注入多模态条件,冻结主干,效率与可迁移性更好。
边界与局限
论文明确写了局限:NeoVerse 要求数据具备正确的底层 3D 信息,因此不适用于 2D 卡通等缺乏 3D 几何线索的数据;此外作者也承认 1M 片段仍不算“特别大”,未来希望继续扩数据。














