从「片段生成」到「长视频漫游」：OmniRoam探索轨迹可控的长视频生成新范式

2026-04-28阅读 786热度 786

短视频

从“片段”到“旅程”：OmniRoam如何让AI视频学会“连续行走”

当前，生成式视频技术已能产出数秒的高质量片段，但一个更本质的挑战在于：如何让AI生成一段在时间和空间上都保持稳定的长视频？

核心瓶颈在于“时间连贯性”。当视频时长从秒级扩展到分钟级，视角的持续变化会引发画面结构漂移和内容逻辑断裂，导致生成结果在空间和时间两个维度上失去一致性。

与此同时，一个关键需求日益凸显：能否像规划导航路线一样，精确控制视频内容的演化轨迹？

针对轨迹可控的长视频生成这一难题，来自加州大学欧文分校、加州大学圣地亚哥分校、香港城市大学、宾夕法尼亚大学及Adobe Research的研究团队提出了OmniRoam解决方案。

论文标题：OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

项目主页：https://yuheng.ink/project-page/omniroam/

文章链接：https://arxiv.org/pdf/2603.30045

代码链接：https://github.com/yuhengliu02/OmniRoam

该研究的核心创新在于引入全景视频作为统一表示，并采用“由粗到精”的两阶段生成框架。这一组合策略在长时序条件下显著提升了视频的空间一致性与时间连贯性，使模型能够沿预定路径生成连续演化的视频序列，标志着从“片段生成”到“连续过程生成”的关键进展。

一、先画路线图：轨迹可控的视频预览

OmniRoam首先生成一个中等分辨率的全景视频预览。这类似于施工前的设计蓝图，旨在确立整体的运动路径与场景布局。

其关键是将相机轨迹解耦为两个直观控制量：flow（流向）与scale（步长）。前者定义运动方向，后者控制移动幅度，使轨迹建模更清晰可控。技术上，模型将起始画面与目标视频在时间维度拼接，并通过flow和scale条件进行调制，从而在保证内容连续性的同时，接受明确路径约束。

二、精雕细琢：从预览到高质量长视频

获得全局预览后，OmniRoam进入长时序细化生成阶段。由于预览阶段通常采用较大scale（类似“快进”），细化阶段会通过scale对齐，将视频扩展为更长、速度更自然的序列。

此阶段的核心设计是visibility mask（可见性掩码）：每个时间段仅选取少量预览帧作为条件输入。这既保留了关键结构锚点，又避免了信息冗余。随后，模型对各片段进行高分辨率生成并拼接，形成完整长视频。这种“全局预览，局部细化”的策略，有效缓解了长序列生成中的误差累积问题。

三、为新任务铺路：数据集与评测基准

为支撑这一新任务，研究团队构建了专用数据集与评测体系。在表示层面，文章定义了标准全景坐标系，剔除相机自旋转，仅保留平移运动，从而简化了轨迹建模复杂度。

数据采用“虚实结合”策略：真实全景视频提供场景多样性，合成数据则提供精确轨迹监督。通过路径规划算法确保所有运动轨迹合理。评测方面，团队提出了闭环一致性指标：要求模型沿闭环路径生成视频，在返回起点时需保持中间过程的合理变化。该指标能更有效地衡量长时序下的空间一致性。

四、实验结果：一致性与可控性双提升

实验表明，OmniRoam在画质、轨迹控制与长时序一致性上均超越现有方法。

定性上，模型能沿指定路径稳定生成连续视频，结构漂移与内容崩塌现象显著减少。定量指标（如FAED、SSIM、LPIPS及闭环一致性）也一致证实其更优性能。

深入分析表明，全景表示与两阶段生成设计是性能提升的关键，使模型在生成长视频时保持稳定可控。文章对比了在长视频（641帧）条件下，包括自回归生成与基于透视表示方法在内的不同方案表现。

为探究长时序一致性，作者设计了闭环轨迹实验，并用CLIP图像相似度评估模型能否“走回原点”。理想情况下，随着相机远离起点，相似度应下降；当轨迹闭环时，相似度应回升。实验结果符合预期：相似度曲线在中段下降，末尾回升，有力证明了模型具备较强的长期空间记忆能力。

五、不止于生成：从实时预览到3D场景

除核心长视频生成能力外，OmniRoam还展示了其在效率与3D任务上的扩展潜力。

效率方面，作者基于self-forcing机制，将完整模型蒸馏为轻量级自回归预览模型，实现近实时视频生成。该轻量模型在保持整体场景结构的同时，能在约7秒内生成81帧全景视频，速度较原始模型大幅提升，为交互式应用铺平道路。同时，框架支持先生成低分辨率视频，再通过细化模块提升至高分辨率（如720p）的灵活工作流。

3D应用方面，OmniRoam生成的长视频可直接作为3D场景重建的优质输入。研究者从生成视频中均匀采样关键帧，提取多个透视视角，输入3D Gaussian Splatting（3DGS）管线进行重建。结果表明，生成视频在不同视角间保持良好一致性，能重建出结构连贯的3D场景。

这意味着OmniRoam不仅是长视频生成器，更能作为上游模块，为实时交互应用与3D内容构建提供有力支持。

六、总结：长视频生成迈向“可持续演化”

OmniRoam的核心贡献在于，其在长时序条件下实现了一种更稳定、更可控的生成“过程”。通过全景表示提供全局空间约束，结合“轨迹控制预览”与“长时序细化”的两阶段设计，模型能在长时间范围内有效抑制漂移，维持结构与语义的前后一致。

这反映出一个重要趋势：视频生成领域的挑战重心，正从“生成更清晰的单帧”转向“在更长的时间轴上保持一致性”。在此背景下，OmniRoam提供了一条可行的技术路径，使生成模型能沿指定轨迹持续、稳定地演化，为未来的长视频叙事、虚拟世界漫游等场景奠定基石。

如果说短视频生成解决的是“生成一段内容”，那么长时序生成真正关注的是，模型能否在时间流逝中持续“记忆并延续”整个场景的生命力。