AI视频生成新突破：因果模型让摄像机与物体运动独立控制

2026-05-15阅读 0热度 0

AI视频

这项由NVIDIA研究院与伊利诺伊大学厄巴纳-香槟分校合作的研究，于2026年4月8日以预印本形式发布于arXiv平台，论文编号为arXiv:2604.07348。

用手机拍摄时，我们本能地知道如何同时追踪移动物体并推近镜头。然而，这对当前的AI视频生成系统构成了核心挑战：镜头运动与物体自身运动在像素层面完全纠缠，AI无法区分“摄像机移动”与“场景内物体移动”。更深层的问题是，系统无法理解物理交互中的因果关系。例如，当手推动杯子时，杯子会滑动，但现有模型仅将其视为像素的机械位移，而非“推力导致滑动”这一逻辑关系。

为攻克运动纠缠与因果缺失这两大瓶颈，NVIDIA团队提出了名为MoRight的新框架。其核心在于为AI构建了一套“双视觉通道与因果推理引擎”的协同系统。

一、为什么现有系统总是“手忙脚乱”

理解MoRight的突破，需先审视现有方法的局限。想象指挥一场舞台剧：你需要同时调度演员走位和摄像机运镜。现有AI视频系统将这两者混为一谈，输入一张标注了所有像素运动轨迹的“总地图”。当摄像机平移时，画面中所有物体的像素轨迹都会发生整体偏移——演员的真实移动与镜头运动产生的视差完全耦合，AI缺乏解耦它们的能力。

研究团队将这一问题定义为“运动纠缠”。现有缓解方案通常依赖深度图、3D轨迹或前景分割等“特权信息”，但这些数据在现实应用中往往难以实时获取，且大多需要在已知完整视频序列的前提下才能使用，限制了其实用性。

因果理解的缺失是另一根本缺陷。当指令要求“手沿此轨迹移动”，AI会尽力让手部像素跟随路径，但对于“手部动作会引发何种连锁反应”则完全无视。在物理世界中，推力导致位移、提拉引发倾倒，这些因果链是动态场景的基石。但对现有模型而言，它们仅仅是连续的像素变化，而非蕴含逻辑的事件序列。

MoRight的设计目标，正是同步破解运动纠缠与因果建模这两大难题。

二、“双流”设计：给运动和镜头各自一条独立的跑道

MoRight的首项核心创新是“双流生成”架构。这类似于专业制片流程：一套系统专注于“固定舞台上的演员调度”，另一套独立系统则专职“摄像机运动规划”。两者并行处理，通过内部协调机制合成最终画面。

具体而言，MoRight将运动控制分解为两个并行通道。第一通道是“规范视角流”，它在假设摄像机静止的坐标系下处理物体运动。用户在此定义的是无歧义的物体路径，例如“茶壶从画面左侧移至右侧”。第二通道是“目标视角流”，它专门处理摄像机运动参数，如旋转、平移或变焦。

两个通道共享神经网络权重，实为同一AI处理两类任务。它们通过Transformer模块中的自注意力层进行特征交换：目标视角流的像素能“看到”规范视角流中的运动信息，从而学会如何将固定视角下的运动，正确映射到移动摄像机后的新视角中。这种“跨视角运动迁移”机制，使得系统仅凭首帧图像就能分离运动与镜头，无需预知后续帧。

在技术实现上，物体运动被编码为“逐像素轨迹图”，让沿相同路径运动的像素共享时间嵌入，再经轻量编码器压缩。摄像机运动编码则借鉴Gen3C方法，利用摄像机位姿与深度估计对首帧进行视图扭曲，再通过VAE编码器转化为条件特征。这两类条件特征在每个Transformer模块中被注入视频特征，通过“注入后同步”的循环，逐步将规范视角的运动信息传递至目标视角。

三、教会AI懂“因果”：主动运动与被动运动的拆分

解耦运动与镜头后，MoRight需应对更深刻的挑战：如何让AI理解“原因导致结果”。

研究团队的解决方案极具巧思。他们将场景中所有运动轨迹划分为两类：“主动运动”（由用户驱动的意图性动作，如手的移动）和“被动运动”（由主动动作引发的反应性运动，如被推杯子的滑动）。前者是“因”，后者是“果”。

训练中引入了“运动丢弃”策略。系统随机地仅向AI展示主动运动轨迹或仅展示被动运动轨迹，然后要求其生成包含完整因果互动的视频。这迫使AI在仅观测“因”时推断“果”，在仅观测“果”时反推“因”。经过大量此类训练，AI逐渐内化了物理交互的规律，而非简单记忆像素轨迹。

这一设计赋予了系统两种可切换的推理模式。“正向推理”允许用户指定主动运动（如绘制手部推动轨迹），AI自动生成被动物体的合理反应。“逆向推理”则相反，用户定义期望的被动效果（如“球向左飞”），AI反向推导出导致该结果的主动动作，并生成完整视频。这极大地拓展了系统的交互灵活性与应用场景。

四、数据从哪里来：一套巧妙的数据工厂

MoRight的双流架构需要“同一场景在不同摄像机角度下的成对视频”进行训练，而这在现实世界中几乎不存在。为此，团队构建了一套三阶段自动化数据流水线。

第一阶段是“运动提取与规范化”。从海量网络视频中提取深度信息、摄像机位姿和密集像素轨迹，通过几何投影将所有轨迹统一映射回首帧的静态视角坐标系，得到规范化的运动轨迹。

第二阶段是“运动分解”。使用Qwen3视觉语言模型理解视频语义，识别主动物体（如人、手）与被动物体（如工具、物品），再利用SAM2视频分割模型进行逐帧精确分割，生成主动与被动物体的掩码，从而将轨迹归类。同时，系统为每个视频生成文字描述，并在训练时随机只提供其中一类运动的描述，防止AI借助文本信息绕过因果推理。

第三阶段是“成对多视角数据合成”。筛选摄像机静止的视频，利用摄像机控制模型生成对应的移动摄像机版本，人工制造出所需的成对训练数据。为增加多样性，系统还补充了轨道旋转、平移、推拉等基本运镜操作，以及从真实视频中提取的动态摄像机轨迹。

除了合成数据，团队还设计了混合训练策略引入真实视频。对于摄像机静止的真实视频，直接将其复制作为“目标流”输出，让AI学习运动条件的传递。对于同时包含摄像机和物体运动的真实视频，则仅对第二个流施加监督损失，使模型能接触各种真实配置以提升泛化能力。此外，还引入了SyncCamMaster生成的合成图形数据以进一步丰富摄像机运动模式。

五、训练细节和推理流程：从粗到细，从简到难

在具体训练中，MoRight采用了多种数据增强策略以提升模型鲁棒性。“多粒度运动丢弃”不仅按主动/被动类型随机丢弃运动，还在像素级精细轨迹与物体级粗粒度轨迹间随机切换，使AI能处理不同精度的控制指令。“遮挡和轨迹丢弃”则随机遮掩部分轨迹点，模拟现实中的遮挡或追踪失败情况，提高对不完整输入的容忍度。训练时还会随机截断轨迹，模拟部分观测的场景。

系统基于预训练的Wan2.1-14B视频生成模型构建，仅对摄像机编码器、轨迹编码器和自注意力层进行微调，冻结其余网络参数。训练使用64块GPU，进行15000次迭代，批大小为16，学习率为3×10⁻⁵/秒。轨迹条件丢弃概率设为0.1，文字条件丢弃概率为0.2。

推理时，用户只需在首帧图像上绘制稀疏的运动轨迹（如简单曲线或箭头），指定运动方向和幅度，再选择目标摄像机位姿序列，系统便会同时对两个流进行联合去噪，输出目标视角的结果。推理过程还会利用首帧深度信息进行遮挡感知处理，确保被遮挡物体的轨迹不影响前景。

研究团队还开发了交互式图形界面，用户可在首帧上直接绘制轨迹，并独立设置摄像机运动模式（如轨道环绕、推近推远等），实时预览效果，进行直观的场景编辑。

六、实验结果：和同行相比，表现如何

研究团队在三个数据集上评估了MoRight的性能：DynPose-100K（选取50段高动态摄像机运动的野外视频）、WISA（选取50段覆盖碰撞、形变等物理动力学视频）以及自行收集的50段真实烹饪视频（包含复杂手-物交互）。

评测指标涵盖四个维度：视频质量（PSNR、SSIM、FID、FVD）、摄像机控制精度（旋转/平移误差）、物体运动精度（终点误差EPE）以及运动真实性（VideoPhy提供的物理常识得分PC和语义一致性得分SA）。

对比的基线方法包括：Wan2.1（基础模型，无运动控制）、Gen3C（仅摄像机控制）、Motion Prompting（MP，接收密集像素轨迹）、ATI（任意轨迹指令控制）以及WanMove（潜在轨迹引导）。后三种方法均需提供包含所有像素的完整运动轨迹作为“特权信息”，而MoRight仅需在首帧定义稀疏的规范视角轨迹。

在摄像机和物体运动联合控制评测中，WanMove在DynPose-100K数据集上总体成绩最好，MoRight略逊一筹——主要原因是高动态摄像机运动下，位姿估计和轨迹重投影的误差影响了输入控制信号的质量。尽管如此，MoRight在物体运动精度（EPE）上达到了与需特权信息方法相当甚至更好的水平。在烹饪数据集上，MoRight则在视频质量和运动控制精度两个维度均取得最佳整体表现。值得注意的是，ATI和WanMove由于将摄像机和物体运动捆绑在同一追踪信号中，在高动态场景中常会偏向主导的运动模式，有时牺牲摄像机精度，有时牺牲物体追踪精度。

在物理交互生成评测中，MoRight表现更为突出。在WISA数据集上，其物理常识得分最高（0.76），MP、ATI和WanMove得分均为0.75或更低。在烹饪数据集上，MoRight同样取得了最高的物理常识得分（0.88）和最低的FID（39.94）、FVD（730.46）。在语义一致性得分上，由于MoRight只接收主动运动描述（为避免作弊），其得分略低于使用完整描述的方法，但差距极小，仍在可比范围内。

七、人类主观评测：真实用户如何选择

为更直观验证效果，团队进行了人类感知评测。从三个数据集中随机抽取30个案例，邀请11位参与者对不同方法的生成结果进行盲评，从“可控性”、“运动真实性”和“照片真实感”三个维度选出最佳结果。

结果显示，MoRight在三个维度上均获得超过一半的偏好票：可控性53.5%，运动真实性54.6%，照片真实感55.9%。ATI的三项得分分别为18.8%、18.2%和17.4%，WanMove分别为25.0%、25.7%和23.1%。要知道，ATI和WanMove使用了包含完整前景背景轨迹的特权信息，而MoRight仅用了首帧的主动轨迹。这一对比表明，拥有更多输入信息并不必然带来更好效果，系统对运动的理解方式和架构设计才是关键。

八、消融研究：每个设计选择是否真的有用

团队通过系统性的消融实验验证了各个模块的贡献。

将双流并行设计改为“先生成静态摄像机视频，再移动摄像机”的两阶段级联方案，会导致误差累积，控制精度显著下降。

若去掉固定视角分支，仅用动态摄像机视频训练并将重投影轨迹与摄像机嵌入联合编码，模型在摄像机精度和物体追踪精度上均大幅下滑，证明规范视角分支是双流解耦的关键。

在训练中去除主动/被动运动分解（即去掉因果推理模块），会导致FID/FVD上升，物理常识得分下降，交互质量明显劣化，说明该模块是改善物理合理性的核心。

若仅使用成对合成数据训练，不加入单视角真实数据进行混合训练，摄像机控制精度会因数据多样性有限而略有下降，验证了混合训练策略对提升泛化能力的必要性。

在运动输入鲁棒性测试中，系统在粗粒度物体级轨迹、细粒度像素级轨迹、仅主动或仅被动运动输入等多种配置下均保持稳定性能，证明其能灵活应对不同输入格式。

九、局限性：哪些地方还做不好

研究团队也坦诚分析了系统的当前局限。第一，可能出现错误的因果推理，导致不合理结果，例如两根烤串在运动中神奇合并为一根。第二，当输入轨迹因遮挡而变得稀疏时，生成的运动可能不自然，如手部在遮挡后出现异常运动模式。第三，生成的运动有时会违反物理一致性，例如足球在运动中突然消失。第四，视频后期帧中可能出现幻觉内容，如凭空多出一只手。此外，系统对极端快速或大幅度的摄像机运动（如剧烈自我运动）处理能力有限，此时生成的交互动态质量会明显下降。

归根结底，MoRight攻克了一个长期存在的难题：既让AI的“视点”（摄像机）与“动作”（物体运动）能独立受控，又让其理解“手推导致杯滑”这类基本物理逻辑。

这项工作的意义远超生成炫酷的演示视频。对具身智能研究者而言，能够预测“执行此动作，环境将如何变化”是机器人理解世界的核心能力之一。对内容创作者来说，能够在一张参考图上自由指定物体运动并切换观察角度，无需专业3D知识，真正降低了创作门槛。对未来世界模型研究而言，这种能同时建模“视角”与“交互后果”的系统，提供了一条更接近人类感知方式的视频生成路径。

当然，MoRight仍有明显局限，幻觉内容、物理不一致、极端摄像机运动处理等问题有待进一步解决。单次视频生成在A100 GPU上约需15分钟，也尚不足以投入实用。但作为一个研究框架，它清晰地证明了“解耦运动理解”与“注入因果推理”这两个方向的可行性。

Q&A

Q1：MoRight和普通AI视频生成系统的最大区别是什么？

A：核心区别在于两点：一是实现了摄像机运动与物体运动的独立解耦与控制；二是嵌入了对物理因果关系的理解。例如，用户只需指定“手向前推”这一主动动作，系统便能自动推断并生成被推物体的合理反应，而无需手动绘制所有物体的完整轨迹。普通系统通常只能被动跟随预设轨迹，缺乏对动作背后因果逻辑的建模。

Q2：MoRight的逆向推理功能具体怎么用？

A：逆向推理允许用户定义期望的“结果”，由系统反推“原因”。例如，用户绘制出球向左飞的轨迹，MoRight会自动推断是何种踢球动作导致了这一飞行轨迹，并生成包含该踢球动作的完整视频。用户无需知晓具体是哪个肢体、以何种方式作用，只需描述最终的运动效果。

Q3：MoRight需要用户提供哪些输入才能生成视频？

A：用户只需提供一张参考图像，在图像上绘制稀疏的运动轨迹（如用箭头指示方向和幅度），并选择摄像机运动模式（如推近、旋转等）。可选择性添加一段文字描述。系统不需要未来帧信息、深度图、3D坐标，也无需绘制所有像素的完整轨迹。