AI视频生成新突破:因果模型让摄像机与物体运动独立控制

2026-05-15阅读 0热度 0
AI视频

这项由NVIDIA研究院与伊利诺伊大学厄巴纳-香槟分校合作的研究,于2026年4月8日以预印本形式发布于arXiv平台,论文编号为arXiv:2604.07348。

NVIDIA与伊利诺伊大学联手:让AI视频生成真正

用手机拍摄时,我们本能地知道如何同时追踪移动物体并推近镜头。然而,这对当前的AI视频生成系统构成了核心挑战:镜头运动与物体自身运动在像素层面完全纠缠,AI无法区分“摄像机移动”与“场景内物体移动”。更深层的问题是,系统无法理解物理交互中的因果关系。例如,当手推动杯子时,杯子会滑动,但现有模型仅将其视为像素的机械位移,而非“推力导致滑动”这一逻辑关系。

为攻克运动纠缠与因果缺失这两大瓶颈,NVIDIA团队提出了名为MoRight的新框架。其核心在于为AI构建了一套“双视觉通道与因果推理引擎”的协同系统。

一、为什么现有系统总是“手忙脚乱”

理解MoRight的突破,需先审视现有方法的局限。想象指挥一场舞台剧:你需要同时调度演员走位和摄像机运镜。现有AI视频系统将这两者混为一谈,输入一张标注了所有像素运动轨迹的“总地图”。当摄像机平移时,画面中所有物体的像素轨迹都会发生整体偏移——演员的真实移动与镜头运动产生的视差完全耦合,AI缺乏解耦它们的能力。

研究团队将这一问题定义为“运动纠缠”。现有缓解方案通常依赖深度图、3D轨迹或前景分割等“特权信息”,但这些数据在现实应用中往往难以实时获取,且大多需要在已知完整视频序列的前提下才能使用,限制了其实用性。

因果理解的缺失是另一根本缺陷。当指令要求“手沿此轨迹移动”,AI会尽力让手部像素跟随路径,但对于“手部动作会引发何种连锁反应”则完全无视。在物理世界中,推力导致位移、提拉引发倾倒,这些因果链是动态场景的基石。但对现有模型而言,它们仅仅是连续的像素变化,而非蕴含逻辑的事件序列。

MoRight的设计目标,正是同步破解运动纠缠与因果建模这两大难题。

二、“双流”设计:给运动和镜头各自一条独立的跑道

MoRight的首项核心创新是“双流生成”架构。这类似于专业制片流程:一套系统专注于“固定舞台上的演员调度”,另一套独立系统则专职“摄像机运动规划”。两者并行处理,通过内部协调机制合成最终画面。

具体而言,MoRight将运动控制分解为两个并行通道。第一通道是“规范视角流”,它在假设摄像机静止的坐标系下处理物体运动。用户在此定义的是无歧义的物体路径,例如“茶壶从画面左侧移至右侧”。第二通道是“目标视角流”,它专门处理摄像机运动参数,如旋转、平移或变焦。

两个通道共享神经网络权重,实为同一AI处理两类任务。它们通过Transformer模块中的自注意力层进行特征交换:目标视角流的像素能“看到”规范视角流中的运动信息,从而学会如何将固定视角下的运动,正确映射到移动摄像机后的新视角中。这种“跨视角运动迁移”机制,使得系统仅凭首帧图像就能分离运动与镜头,无需预知后续帧。

在技术实现上,物体运动被编码为“逐像素轨迹图”,让沿相同路径运动的像素共享时间嵌入,再经轻量编码器压缩。摄像机运动编码则借鉴Gen3C方法,利用摄像机位姿与深度估计对首帧进行视图扭曲,再通过VAE编码器转化为条件特征。这两类条件特征在每个Transformer模块中被注入视频特征,通过“注入后同步”的循环,逐步将规范视角的运动信息传递至目标视角。

三、教会AI懂“因果”:主动运动与被动运动的拆分

解耦运动与镜头后,MoRight需应对更深刻的挑战:如何让AI理解“原因导致结果”。

研究团队的解决方案极具巧思。他们将场景中所有运动轨迹划分为两类:“主动运动”(由用户驱动的意图性动作,如手的移动)和“被动运动”(由主动动作引发的反应性运动,如被推杯子的滑动)。前者是“因”,后者是“果”。

训练中引入了“运动丢弃”策略。系统随机地仅向AI展示主动运动轨迹或仅展示被动运动轨迹,然后要求其生成包含完整因果互动的视频。这迫使AI在仅观测“因”时推断“果”,在仅观测“果”时反推“因”。经过大量此类训练,AI逐渐内化了物理交互的规律,而非简单记忆像素轨迹。

这一设计赋予了系统两种可切换的推理模式。“正向推理”允许用户指定主动运动(如绘制手部推动轨迹),AI自动生成被动物体的合理反应。“逆向推理”则相反,用户定义期望的被动效果(如“球向左飞”),AI反向推导出导致该结果的主动动作,并生成完整视频。这极大地拓展了系统的交互灵活性与应用场景。

四、数据从哪里来:一套巧妙的数据工厂

MoRight的双流架构需要“同一场景在不同摄像机角度下的成对视频”进行训练,而这在现实世界中几乎不存在。为此,团队构建了一套三阶段自动化数据流水线。

第一阶段是“运动提取与规范化”。从海量网络视频中提取深度信息、摄像机位姿和密集像素轨迹,通过几何投影将所有轨迹统一映射回首帧的静态视角坐标系,得到规范化的运动轨迹。

第二阶段是“运动分解”。使用Qwen3视觉语言模型理解视频语义,识别主动物体(如人、手)与被动物体(如工具、物品),再利用SAM2视频分割模型进行逐帧精确分割,生成主动与被动物体的掩码,从而将轨迹归类。同时,系统为每个视频生成文字描述,并在训练时随机只提供其中一类运动的描述,防止AI借助文本信息绕过因果推理。

第三阶段是“成对多视角数据合成”。筛选摄像机静止的视频,利用摄像机控制模型生成对应的移动摄像机版本,人工制造出所需的成对训练数据。为增加多样性,系统还补充了轨道旋转、平移、推拉等基本运镜操作,以及从真实视频中提取的动态摄像机轨迹。

除了合成数据,团队还设计了混合训练策略引入真实视频。对于摄像机静止的真实视频,直接将其复制作为“目标流”输出,让AI学习运动条件的传递。对于同时包含摄像机和物体运动的真实视频,则仅对第二个流施加监督损失,使模型能接触各种真实配置以提升泛化能力。此外,还引入了SyncCamMaster生成的合成图形数据以进一步丰富摄像机运动模式。

五、训练细节和推理流程:从粗到细,从简到难

在具体训练中,MoRight采用了多种数据增强策略以提升模型鲁棒性。“多粒度运动丢弃”不仅按主动/被动类型随机丢弃运动,还在像素级精细轨迹与物体级粗粒度轨迹间随机切换,使AI能处理不同精度的控制指令。“遮挡和轨迹丢弃”则随机遮掩部分轨迹点,模拟现实中的遮挡或追踪失败情况,提高对不完整输入的容忍度。训练时还会随机截断轨迹,模拟部分观测的场景。

系统基于预训练的Wan2.1-14B视频生成模型构建,仅对摄像机编码器、轨迹编码器和自注意力层进行微调,冻结其余网络参数。训练使用64块GPU,进行15000次迭代,批大小为16,学习率为3×10⁻⁵/秒。轨迹条件丢弃概率设为0.1,文字条件丢弃概率为0.2。

推理时,用户只需在首帧图像上绘制稀疏的运动轨迹(如简单曲线或箭头),指定运动方向和幅度,再选择目标摄像机位姿序列,系统便会同时对两个流进行联合去噪,输出目标视角的结果。推理过程还会利用首帧深度信息进行遮挡感知处理,确保被遮挡物体的轨迹不影响前景。

研究团队还开发了交互式图形界面,用户可在首帧上直接绘制轨迹,并独立设置摄像机运动模式(如轨道环绕、推近推远等),实时预览效果,进行直观的场景编辑。

六、实验结果:和同行相比,表现如何

研究团队在三个数据集上评估了MoRight的性能:DynPose-100K(选取50段高动态摄像机运动的野外视频)、WISA(选取50段覆盖碰撞、形变等物理动力学视频)以及自行收集的50段真实烹饪视频(包含复杂手-物交互)。

评测指标涵盖四个维度:视频质量(PSNR、SSIM、FID、FVD)、摄像机控制精度(旋转/平移误差)、物体运动精度(终点误差EPE)以及运动真实性(VideoPhy提供的物理常识得分PC和语义一致性得分SA)。

对比的基线方法包括:Wan2.1(基础模型,无运动控制)、Gen3C(仅摄像机控制)、Motion Prompting(MP,接收密集像素轨迹)、ATI(任意轨迹指令控制)以及WanMove(潜在轨迹引导)。后三种方法均需提供包含所有像素的完整运动轨迹作为“特权信息”,而MoRight仅需在首帧定义稀疏的规范视角轨迹。

在摄像机和物体运动联合控制评测中,WanMove在DynPose-100K数据集上总体成绩最好,MoRight略逊一筹——主要原因是高动态摄像机运动下,位姿估计和轨迹重投影的误差影响了输入控制信号的质量。尽管如此,MoRight在物体运动精度(EPE)上达到了与需特权信息方法相当甚至更好的水平。在烹饪数据集上,MoRight则在视频质量和运动控制精度两个维度均取得最佳整体表现。值得注意的是,ATI和WanMove由于将摄像机和物体运动捆绑在同一追踪信号中,在高动态场景中常会偏向主导的运动模式,有时牺牲摄像机精度,有时牺牲物体追踪精度。

在物理交互生成评测中,MoRight表现更为突出。在WISA数据集上,其物理常识得分最高(0.76),MP、ATI和WanMove得分均为0.75或更低。在烹饪数据集上,MoRight同样取得了最高的物理常识得分(0.88)和最低的FID(39.94)、FVD(730.46)。在语义一致性得分上,由于MoRight只接收主动运动描述(为避免作弊),其得分略低于使用完整描述的方法,但差距极小,仍在可比范围内。

七、人类主观评测:真实用户如何选择

为更直观验证效果,团队进行了人类感知评测。从三个数据集中随机抽取30个案例,邀请11位参与者对不同方法的生成结果进行盲评,从“可控性”、“运动真实性”和“照片真实感”三个维度选出最佳结果。

结果显示,MoRight在三个维度上均获得超过一半的偏好票:可控性53.5%,运动真实性54.6%,照片真实感55.9%。ATI的三项得分分别为18.8%、18.2%和17.4%,WanMove分别为25.0%、25.7%和23.1%。要知道,ATI和WanMove使用了包含完整前景背景轨迹的特权信息,而MoRight仅用了首帧的主动轨迹。这一对比表明,拥有更多输入信息并不必然带来更好效果,系统对运动的理解方式和架构设计才是关键。

八、消融研究:每个设计选择是否真的有用

团队通过系统性的消融实验验证了各个模块的贡献。

将双流并行设计改为“先生成静态摄像机视频,再移动摄像机”的两阶段级联方案,会导致误差累积,控制精度显著下降。

若去掉固定视角分支,仅用动态摄像机视频训练并将重投影轨迹与摄像机嵌入联合编码,模型在摄像机精度和物体追踪精度上均大幅下滑,证明规范视角分支是双流解耦的关键。

在训练中去除主动/被动运动分解(即去掉因果推理模块),会导致FID/FVD上升,物理常识得分下降,交互质量明显劣化,说明该模块是改善物理合理性的核心。

若仅使用成对合成数据训练,不加入单视角真实数据进行混合训练,摄像机控制精度会因数据多样性有限而略有下降,验证了混合训练策略对提升泛化能力的必要性。

在运动输入鲁棒性测试中,系统在粗粒度物体级轨迹、细粒度像素级轨迹、仅主动或仅被动运动输入等多种配置下均保持稳定性能,证明其能灵活应对不同输入格式。

九、局限性:哪些地方还做不好

研究团队也坦诚分析了系统的当前局限。第一,可能出现错误的因果推理,导致不合理结果,例如两根烤串在运动中神奇合并为一根。第二,当输入轨迹因遮挡而变得稀疏时,生成的运动可能不自然,如手部在遮挡后出现异常运动模式。第三,生成的运动有时会违反物理一致性,例如足球在运动中突然消失。第四,视频后期帧中可能出现幻觉内容,如凭空多出一只手。此外,系统对极端快速或大幅度的摄像机运动(如剧烈自我运动)处理能力有限,此时生成的交互动态质量会明显下降。

归根结底,MoRight攻克了一个长期存在的难题:既让AI的“视点”(摄像机)与“动作”(物体运动)能独立受控,又让其理解“手推导致杯滑”这类基本物理逻辑。

这项工作的意义远超生成炫酷的演示视频。对具身智能研究者而言,能够预测“执行此动作,环境将如何变化”是机器人理解世界的核心能力之一。对内容创作者来说,能够在一张参考图上自由指定物体运动并切换观察角度,无需专业3D知识,真正降低了创作门槛。对未来世界模型研究而言,这种能同时建模“视角”与“交互后果”的系统,提供了一条更接近人类感知方式的视频生成路径。

当然,MoRight仍有明显局限,幻觉内容、物理不一致、极端摄像机运动处理等问题有待进一步解决。单次视频生成在A100 GPU上约需15分钟,也尚不足以投入实用。但作为一个研究框架,它清晰地证明了“解耦运动理解”与“注入因果推理”这两个方向的可行性。

Q&A

Q1:MoRight和普通AI视频生成系统的最大区别是什么?

A:核心区别在于两点:一是实现了摄像机运动与物体运动的独立解耦与控制;二是嵌入了对物理因果关系的理解。例如,用户只需指定“手向前推”这一主动动作,系统便能自动推断并生成被推物体的合理反应,而无需手动绘制所有物体的完整轨迹。普通系统通常只能被动跟随预设轨迹,缺乏对动作背后因果逻辑的建模。

Q2:MoRight的逆向推理功能具体怎么用?

A:逆向推理允许用户定义期望的“结果”,由系统反推“原因”。例如,用户绘制出球向左飞的轨迹,MoRight会自动推断是何种踢球动作导致了这一飞行轨迹,并生成包含该踢球动作的完整视频。用户无需知晓具体是哪个肢体、以何种方式作用,只需描述最终的运动效果。

Q3:MoRight需要用户提供哪些输入才能生成视频?

A:用户只需提供一张参考图像,在图像上绘制稀疏的运动轨迹(如用箭头指示方向和幅度),并选择摄像机运动模式(如推近、旋转等)。可选择性添加一段文字描述。系统不需要未来帧信息、深度图、3D坐标,也无需绘制所有像素的完整轨迹。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策