通用4D世界模型NeoVerse评测：单目视频秒变4D大片，推理提速8倍

2026-06-11阅读 0热度 0

人工智能

导读： 想象一下，只需要一段普通手机拍摄的单目视频，AI 就能瞬间为你构建出一个可交互、可编辑、可全视角观看的 4D 世界。

中科院自动化所和 CreateAI 联合团队最近放了个大招——NeoVerse，一个通用的 4D 世界模型。这玩意儿的厉害之处在于，它不再像以前那样依赖昂贵、难采集的多视角数据或复杂的位姿预处理，而是直接从互联网上扒下来的 100 万条“野外”单目视频里学习，硬是把视频重建和生成推到了新的高度。

一、论文概述

论文名称：NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

论文链接：https://arxiv.org/pdf/2601.00393

项目地址：https://neoverse-4d.github.io/

NeoVerse 的思路，就是把这件事做成一条可规模化的训练流水线，让模型能持续利用海量野外视频来升级自己。论文的图 1 很清晰：先做前向的动态 4D 高斯表示（4DGS）重建，再从新视角渲染出低质量的退化渲染结果，把这些作为条件喂给生成模型。训练时，就用原始视频做目标，逼着生成模型从这些低质量渲染中，学会生成高质量的新视角结果。

二、为什么需要 NeoVerse

4D 世界模型，说白了就是把 3D 空间（长、宽、高）再加个时间维度（1D）融合起来的场景建模技术。它要干的事，是对动态场景做时空一体化的表征：既要还原三维空间结构，又要捕捉时间维度的运动变化，最终实现对真实世界的动态数字化复刻。

问题来了，之前的 4D 世界模型，为啥就吃不下海量的野外视频？论文里点明了两个硬伤：

数据可扩展性有限。很多工作依赖难搞的多机位动态数据，这直接锁死了模型的泛化能力和性能上限。
训练可扩展性有限。另一类方法离不开繁琐的离线预处理，比如算深度、做重建、加 3D 检测什么的，既费计算资源，又让训练方案变得僵化。

NeoVerse 就是冲着这两点来的，思路很直接：把整条从重建到生成的训练流水线，设计成可扩展、可端到端的形式，让模型能直接利用“廉价又多样”的野外单目视频持续学习，而不是被数据形态或离线流程拖住后腿。

三、核心技术

总体框架

如果只靠生成模型，直接从单目视频“脑补”新视角，为啥容易漂移、闪烁、细节糊掉？

NeoVerse 的策略很聪明：把任务拆成两步走。先用重建端给出一个几何上自洽的动态世界骨架（4DGS），然后用生成端把骨架渲染出来、但满是缺陷的画面，提升成高质量视频。

图 2 展示了这条链路：重建端是 pose-free、feed-forward 的 4DGS 重建；生成端则把 4DGS 在新视角渲染出的退化渲染结果，作为条件输入扩散模型。训练时，用“退化条件 → 原视频帧”作为监督对，让模型学会从低质量渲染生成高质量结果。

为什么要“双向运动建模”

很多人会直觉地认为，动态重建只要“逐帧估算”就行了。但单目视频里最难搞的是时间一致性：既要让物体在 t→t+1 时连贯，也要让它在 t→t−1 时同样合理，不然中间帧插值就会抖、会错位。

论文讲得很清楚：他们显式地区分t→t+1 与 t→t−1 的瞬时运动，用双向预测来服务“时间插值”，可不是为了多一个分支。公式 (1) 表明，把帧特征沿时间切成两段，分别做一次 Cross-Attention，得到前向 motion feature 和后向 motion feature，分别刻画“往前一帧怎么动”和“往后一帧怎么动”。

公式 (2) 说明，每个高斯点不只是“位置/旋转/尺度/颜色”这种静态属性，还带着双向线速度 (v_i^+, v_i^-)，双向角速度 (w_i^+, w_i^-)，以及一个生命周期 (tau_i)。这意味着模型不光知道“点在哪里”，还知道“它往前/往后会怎么走”，并且清楚“这个点在时间上该持续多久”。

训练为什么能更快

这里的关键不是“少算几帧”，而是少算的同时还能保证时序正确。论文说得明白：长视频如果逐帧在线重建，会成为训练瓶颈，所以只取 K 个关键帧做重建输入，但渲染覆盖全部 N 帧，因为渲染比网络计算高效。

那非关键帧怎么来？公式 (3)(4)(5) 的意义在于：用双向速度/角速度，把关键帧的高斯“平移/旋转”到任意时间戳（这里默认短时间内运动近似线性）。

特别值得一提的是公式 (5) 里的 (tau_i)。它控制 opacity 的衰减，让高斯点在时间上自然淡入淡出，避免某些点突然出现/消失造成闪烁。论文还解释了，当 (tau_i-1) 时衰减几乎没有，否则，(tau_i) 衰减迅速。

没有多视角真值，训练对从哪来？

单目视频没有多视角的 GT（真值），生成模型凭什么学会“把新视角渲染变好”？

生成模型需要学习“从低质量新视角渲染到高质量新视角”的映射，所以必须构造出这种训练对。多视角数据好办，但野外单目视频就得自己模拟退化。

图 3 画的三类退化可不是随便挑的，它们基本对应单目重建/渲染中最常见的错误形态：

遮挡缺失（图 3 - a）：通过深度判断从新轨迹看哪些高斯不可见，直接裁剪掉再渲染回原视角，得到“该缺的地方缺掉”的遮挡退化。

飞点与畸变（图 3 - b、c）：先在新轨迹渲染深度并做平均滤波，再按滤波深度调整高斯中心；渲染回原视角会出现边缘飞点，滤波核更大还能模拟更宽的畸变。

这一步的价值在于：它让模型见识了“野外单目重建真实会出现的坏条件”，训练就不再依赖昂贵的多机位数据，从而更可规模化。

生成端为什么“既听镜头指挥、又能修伪影”

要让扩散模型真正“听懂镜头轨迹”，光有 RGB 远远不够。论文把条件做成多模态的：RGB、Depth、由 opacity 二值化的 Mask（指示空洞区域），并额外计算 Plücker embedding 来显式提供 3D 相机运动信息。

然后引入一个控制分支来注入这些条件，训练时只训练控制分支、冻结原视频生成模型——这样做一方面是为了训练效率，另一方面让整个方案能接入更强的蒸馏或 LoRA 加速生成。

四、实验与应用

重建效果

先明确一点：这里的重建指标其实都在回答同一个问题——你从视频里还原出来的 3D/4D 世界，渲染回去像不像、稳不稳、有没有“假细节”。

PSNR/SSIM 越高，通常表示画面更接近真实、结构更一致；LPIPS 越低，表示从“人眼感知”角度更接近真实，更少“看起来不对劲”的伪影。

如表 1（静态），与 VRNeRF 和 Scannet++ 相比，论文的 PSNR/SSIM 更高、LPIPS 更低，说明它不仅更清晰，也更“像真”。

如表 2（动态），动态场景对重建更具挑战：场景中存在物体运动与频繁遮挡，模型不仅要还原几何结构，还要保证时间上的连续一致，因此更容易出现伪影或指标下降。但在 ADT 与 DyCheck 两个动态数据集上，NeoVerse 仍取得了表中最优结果。更关键的是，表注中 † 标明部分对比方法需要额外输入相机位姿，而 NeoVerse 在 pose-free（无需位姿输入） 的设定下依然优于这些“输入条件更强”的基线，这凸显了它在真实野外单目视频场景中的竞争力。

生成效果

一个现实的痛点是：镜头一旦大幅移动，新视角生成要么轨迹飘移，要么画质糊掉或闪烁。论文中指出：相关工作通常存在“生成质量 vs 轨迹可控性”的权衡。

图 4 就是这种权衡的直观证据：Trajectory Crafter 更像“重建驱动”，轨迹可控性好，但生成质量更差；ReCamMaster 更像“纯生成”，画质好但轨迹控制不精确；NeoVerse 试图两者兼得，实现了更好的生成质量，黄色框标出了其他方法的伪影或问题区域。

表 3（VBench）则把“好不好看、稳不稳”量化了，包括主观一致性、背景一致性、时间闪烁、运动平滑等维度。很有价值的一点是，它把推理时间拆成了 Reconstruction / Generation / Total 三部分。生成端时间基本稳定在 18s，而关键帧越多，重建端耗时越长；这使得“质量 vs 速度”可以通过关键帧数直接调节。

哪些设计真的在贡献效果

表 4（消融）不是在简单“去掉模块看掉点”，它回答了两件事：

双向运动建模有没有必要？ 去掉它（w/o Bidirectional Motion）性能下降，论文还明确解释了做法：跳过公式(1)直接从帧特征预测 motion，会带来掉点，证明 motion 建模机制有效。

正则有没有必要？ 去掉 regularization 会更差，论文解释这是为了防止模型学“透明高斯走捷径”。

纯重建（Reconstruction part） vs 全流程（w/ Generation），后者在 DyCheck 上从 11.56 提升到 14.59（PSNR），说明“生成阶段不是锦上添花，而是在系统层面显著拉升最终质量”。

图 7 表明：如果不训练模拟退化样本，生成模型会“相信条件里的几何伪影”，导致 ghosting 或模糊；加入退化模拟后，模型学会抑制伪影，并在遮挡/扭曲区域“补出更真实的细节”。

下游应用

因为 NeoVerse 有一个“随时间变化的 4D 表示”，所以它不仅能渲染，还能做空间与时间上的操作。

3D tracking（图 9）：用预测的 3D flow 在相邻帧之间关联最近的高斯点，从而实现 3D 跟踪可视化。

Video editing（图 10）：因为生成端有二值 mask 条件 + 文本条件，所以可以在分割模型辅助下做视频编辑，示例是“白车改红车”“茶壶变透明”。

Video stabilization / super-resolution（图 1）：稳定的核心是“平滑预测相机轨迹”；超分的核心是“4D 高斯渲染分辨率可灵活提高，再用生成端出更高分辨率视频”。

它为什么更“像能做成产品”的路线？

NeoVerse 不只是提出一个结构，而是把“数据—训练—评测”按可规模化路线补齐了，这也是它能在大镜头运动下同时做到“轨迹可控 + 画质稳定”的重要前提。

五、结论

三点启发

“单目 + 大规模”可行的关键，不在于网络多大，而在于训练对怎么造：在线退化模拟把“无 GT”的问题变成了“可监督”。
时间一致性要服务“插值与效率”：双向运动不仅是精度点，更直接支撑了“稀疏关键帧重建 + 全帧渲染”的训练提速策略。
生成模型不一定要全量重训：用控制分支注入多模态条件，冻结主干，效率与可迁移性更好。

边界与局限

论文明确写了局限：NeoVerse 要求数据具备正确的底层 3D 信息，因此不适用于 2D 卡通等缺乏 3D 几何线索的数据；此外作者也承认 1M 片段仍不算“特别大”，未来希望继续扩数据。

通用4D世界模型NeoVerse评测：单目视频秒变4D大片，推理提速8倍

一、论文概述

二、为什么需要 NeoVerse

三、核心技术

总体框架

为什么要“双向运动建模”

训练为什么能更快

没有多视角真值，训练对从哪来？

生成端为什么“既听镜头指挥、又能修伪影”

四、实验与应用

重建效果

生成效果

哪些设计真的在贡献效果

下游应用

它为什么更“像能做成产品”的路线？

五、结论

三点启发

边界与局限

相关阅读

最新教程

最新资讯