2024年AI视频生成权威测评：物理常识突破，告别皮球落地即停

2026-05-15阅读 0热度 0

AI视频

这项由伊利诺伊大学厄巴纳-香槟分校PLAN Lab团队主导的研究，以预印本形式发布于2026年4月9日，论文编号arXiv:2604.08503，标题为“Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics”。

你是否曾对AI生成的视频感到一丝违和？比如，一个下落的皮球触地后突然静止，或者倾倒的液体在动作发生前就出现在容器底部。这些并非个例，而是当前主流AI视频生成系统的普遍缺陷。它们在视觉保真度上表现出色，但在物理合理性上却严重缺失——系统本质上缺乏对现实世界基本物理法则的认知。

伊利诺伊大学厄巴纳-香槟分校的研究团队精准地指出了这一核心问题：为何模型在学习了海量真实世界视频后，依然无法掌握物理规律？关键在于，单纯的“观看”并不等同于“理解”。正如仅靠观察无法学会打乒乓球，现有模型的训练范式本质上停留在对像素模式的模仿，而非对背后因果机制的推理。

为此，团队提出了名为“Phantom”的创新框架。其命名寓意着捕捉那些隐藏在可见画面之下、无形的物理动态。Phantom的核心创新在于，为模型开辟了一条独立的“物理感知”通道，使其在生成每一帧视觉内容的同时，能够并行预测并整合场景中物体应有的物理状态。这项研究的价值在于，它尝试将物理理解内化为模型架构的一部分，而非依赖事后的外部修正或数据堆砌。

一、AI视频为什么总在“耍赖”

要评估Phantom的贡献，首先需要剖析现有AI视频生成系统的工作原理及其根本局限。

当前主流模型的核心任务是基于前一帧画面预测下一帧的像素分布。这种自回归生成模式存在一个根本性弱点：模型仅优化画面在像素空间的连续性，却忽略了物体运动应遵循的物理约束。

我们可以用一个比喻来理解：假设任务是描绘“杯子从桌面跌落”。一个仅擅长“画面临摹”的AI，或许能画出“杯子在桌上”和“杯子在地上”两种状态，但它无法内化重力、加速度、碰撞能量转换等物理规律。因此，当遇到训练数据中不常见的场景（如弹性球体的连续弹跳），它就可能生成物体违反动量守恒或突然消失的画面，因为在它的像素级“经验”里，这些输出同样具有统计上的可能性。

研究表明，单纯扩大模型规模或增加数据量，并不能根治这一问题。模型表现出的更多是对数据分布的拟合，而非对物理因果关系的建模。一旦脱离训练数据的舒适区，其物理认知的匮乏便会暴露。这正是Phantom团队选择从架构层面进行革新的出发点。

二、Phantom的核心思路：给AI装一个“物理感知器”

Phantom的设计理念，可以用交响乐团来类比。传统视频生成模型如同一支仅有弦乐和管乐的乐队，能演奏出优美的旋律，但缺乏指挥来统一节奏与动态，导致整体演奏缺乏协调与律动。Phantom的解决方案，是引入一个独立的“节奏声部”——即物理感知轨道。这个声部不直接参与主旋律演奏，而是专门负责解读和预测乐曲内在的节拍与力度变化，确保视觉“乐手”的每一个音符都落在正确的物理节拍上。

在具体实现上，Phantom基于强大的Wan2.2-TI2V-5B视频生成模型构建。它并未推翻原有视觉生成主干，而是并行引入了一条全新的“物理推理轨道”。这条轨道并非直接硬编码牛顿力学公式，而是采用了一种更具泛化能力的学习方法：利用一个经过海量无标签视频自监督预训练的视觉理解模型V-JEPA2，将视频帧编码为一种能够表征潜在物理动态的抽象特征。

V-JEPA2模型在预训练过程中，自发形成了对物体持久性、碰撞、重力等基础物理概念的直觉表征。研究团队将其提取的特征称为“物理感知嵌入”——这是一种将复杂物理状态压缩为紧凑向量的通用“语言”，用以描述场景中物体的运动趋势与交互属性。

在Phantom框架中，输入帧被同时送入两条并行处理流：一条是原有的视觉流，负责解析颜色、纹理、形状等外观信息；另一条是新增的物理流，通过V-JEPA2提取对应的物理状态嵌入。两条流独立运作，但通过“双向交叉注意力”机制深度耦合——视觉流参考物理状态来调整画面生成，物理流也依据视觉信息来修正其状态预测，两者在生成过程中持续进行协同校准。

三、双轨并行：视觉与物理如何互相“倾听”

将“双向交叉注意力”机制通俗化，可以理解为Phantom内部有两位专家在协同工作。视觉专家负责记录场景的所有表面细节：物体的颜色、位置、光照。物理专家则专注于推断场景中发生的物理事件：物体的速度、受力情况、能量传递。他们并非各自独立工作，而是定期交换情报。视觉专家会根据物理专家的推断，调整对物体未来状态的描绘（例如，球体落地后应具有向上的速度）；物理专家也会根据视觉专家提供的图像证据，修正自己的物理参数估计（例如，根据球体的形变推断其弹性系数）。最终，他们共同输出一个既视觉连贯、又物理合理的序列。

在技术实现上，这种协作体现在模型每一层的计算中。视觉轨道和物理轨道的隐藏状态会相互作为对方注意力机制的查询对象，进行密集的信息交换。简言之，视觉轨道会“咨询”物理轨道：“根据物理规律，下一帧物体状态应如何变化？”物理轨道也会“询问”视觉轨道：“根据当前画面，我的物理参数预测是否需要调整？”通过这种持续的相互“质询”与“反馈”，两条轨道得以协同演化。

研究团队特别强调，这种后期高层交互的双轨设计，比早期简单融合视觉与物理特征更为有效。早期融合容易导致不同性质的信息相互干扰，模型难以区分哪些特征对应外观，哪些对应物理规律。保持轨道独立并在高层进行交互，则能让各自专注于核心任务，同时获得必要的跨模态信息补充。

四、训练策略：冻结优势，只练短板

Phantom的训练策略体现了高效的工程思维。鉴于基础视觉生成模型Wan2.2已经具备卓越的画面生成能力，在训练过程中将其参数全部“冻结”，完整保留其视觉优势。需要训练和优化的，仅限于新引入的物理轨道参数，以及连接两条轨道的交叉注意力层。

这种策略的优势非常明显：无需从头训练庞大的视频生成系统，极大节约了计算成本；同时，避免了物理训练信号对已成熟的视觉生成能力造成干扰或破坏。

训练时，Phantom需要同步优化两个目标：预测未来帧的视觉内容，以及预测未来帧对应的物理状态表示。然而，物理损失产生的梯度往往远大于视觉损失，若不加以控制，强烈的物理信号会主导训练，导致不稳定。为此，团队设计了一个巧妙的“循环权重调度策略”。他们将物理损失的权重初始值设为零，然后逐步增加；一旦物理梯度的范数超过预设阈值，就将权重重置为零，重新开始循环增加。这个过程类似于教导新乐手时，循序渐进地增加其演奏部分的音量，避免其一开始就用力过猛，破坏整体和谐。

训练数据来源于OpenVidHD-0.4M数据集，包含约40万条高质量视频-文本对。值得注意的是，该数据集并非专为物理场景构建，涵盖了广泛的日常视觉内容。这意味着Phantom的物理理解能力并非来自对特定物理场景的机械记忆，而是真正从通用视觉经验中进行了抽象和泛化。

训练在4块NVIDIA H200 GPU上进行，共2个epoch，使用AdamW优化器，学习率设为4e-5，权重衰减为1e-3，并采用了余弦学习率衰减和5%的预热比例。

五、不只是视频生成：Phantom还能接受物理控制信号

除了标准的文本到视频生成，研究团队还探索了一个更具交互性的应用方向：基于力的物理控制生成。

设想一个场景：你有一张静态图片，比如一辆停在沙滩上的玩具车。你希望AI能根据你的指令，生成一段展示这小车被向左推动后运动过程的视频。这就要求AI不仅能生成视频，还要能理解并响应具体的物理控制指令——“在坐标(x, y)处施加一个大小为F、方向为θ度的力，然后模拟后续运动”。

Phantom处理此类任务的方式是，先将力的信息（大小、方向、作用点）转换成一个简短的力场可视化视频片段，然后用V-JEPA2对这个力场视频进行编码，得到对应的物理状态表示，并输入给物理轨道。与此同时，视觉轨道接收原始的玩具车图片和常规的场景描述文本。两条轨道各司其职，最终协同生成一段符合力学原理的运动视频。

在Force-Prompting数据集上进行约1100步的微调后，Phantom便能生成响应外力控制的视频：向左推，车就向左运动；挂在树上的玩具马被推后，会像钟摆一样来回摆动。这个扩展应用证明，Phantom的物理轨道不仅仅是一个被动的观察者，更是一个能够主动响应并整合外部物理控制信号的感知与生成系统。

六、测试结果：物理合理性大幅提升，视觉质量丝毫不减

研究团队使用了三个专注于物理合理性的评测基准（VideoPhy, VideoPhy-2, Physics-IQ）以及一个综合视频质量评测工具（VBench-2）来全面评估Phantom。

在VideoPhy基准测试中（关注多种材料和交互场景下的物理常识），Phantom相比基础模型Wan2.2-TI2V，物理常识得分大幅提升了50.4%，达到所有对比方法中最高的37.9分；语义贴合度也提升了14.5%。这标志着模型在物理合理性上取得了突破性进展。

在更具挑战性的VideoPhy-2基准上（专注于包含人类交互的复杂动作场景），Phantom在语义贴合度上提升了13.1%，物理常识得分提升了2.6%。考虑到该基准的难度，任何提升都具有显著价值。

Physics-IQ基准最为特殊，它使用真实世界拍摄的视频作为参考，评估生成视频与真实物理过程的一致性。在“单帧条件”（仅给第一帧）设定下，Phantom的整体得分比基础模型提升了33.9%，其中空间重叠度提升49.4%，加权空间重叠度提升37.3%，预测误差降低11.1%。在“多帧条件”下，Phantom也展现了强大竞争力。

在综合质量评测VBench-2上，Phantom的整体得分比基础模型高出0.5%，并在多个细分维度上取得改善：人体真实性（+2.7%）、物理合理性（+6.0%）、可控性（+9.4%）、常识符合度（+1.4%）。细粒度指标上，人体结构准确性（+3.3%）、服装真实性（+4.9%）、构图质量（+11.7%）、人类互动表现（+25.9%）、多视角一致性（+99.2%）、空间动态关系（+31.4%）、运动顺序合理性（+15.7%）、力学表现（+2.3%）均有显著提升。

唯一出现下降的指标是“创意性”中的“多样性”分项，从64.67降至45.95。对此，研究团队给出了一个合理的解释：物理上不合理或荒谬的视频往往包含大量随机、怪异的变化，这些变化在多样性评测中可能反而会得到高分。Phantom生成的视频因更加遵循物理规律而行为更一致、可预测，因此在这个特定指标上得分降低。这更像是评测标准本身的一个局限性，而非模型的缺陷。

七、与竞争对手的对比：各有千秋，但物理理解独树一帜

研究团队将Phantom与多种方案进行了对比，包括通用视频生成模型和专门针对物理合理性的方法。

在通用模型（如CogVideoX-5B, HunyuanVideo, Wan2.2-TI2V-5B）对比中，Phantom在物理类测试上全面领先，这在意料之中，因为这些模型本身并未针对物理进行专门设计。

与专门方法的对比更具说服力。PhyT2V的思路是利用大型语言模型对提示词进行多次迭代优化，通过思维链推理来引导现有视频模型输出更合理的结果。它无需重新训练生成模型，但每次生成都需额外进行多轮LLM推理，增加了成本，且并未改变模型内部的物理理解能力。WISA方法将物理类别和属性信息嵌入到生成过程中。VideoREPA则通过对齐视频扩散模型的隐藏状态与视频基础模型的表示来注入物理理解。在VideoPhy的物理常识得分上，Phantom（37.9分）超过了所有这些专门方法，包括PhyT2V（37分）和WISA（33分），更是远超VideoREPA（22.4分）。值得注意的是，VideoREPA是基于比Wan2.2更强大的CogVideoX-5B构建的，即便如此，Phantom仍取得了更优的物理合理性提升。

此外，团队还进行了一个消融实验：将物理状态编码器从V-JEPA2替换为另一种视频理解模型VideoMAEv2。结果显示，使用V-JEPA2的版本在所有指标上均优于使用VideoMAEv2的版本，这验证了V-JEPA2在捕捉物理相关特征方面确实更具优势。

八、用眼睛看得出来的改善：几个典型案例

论文中的定性对比（肉眼可见的对比）同样极具说服力。

场景一：气球缩小。 基础模型Wan2.2-TI2V让气球通过逐渐远离镜头来“显得”变小，同时气球颜色还从原色莫名变成了红色。Phantom则生成了一个体积真实缩小、颜色保持一致的渐变过程。

场景二：倒咖啡。 基础模型生成的杯子上有盖子，但倒咖啡的动作却无视盖子直接进行，产生逻辑矛盾。Phantom生成的杯子没有盖子，倒咖啡过程合理。

场景三：橡皮球弹跳。 基础模型让球触地后直接静止。Phantom则生成了符合动量与能量转换的合理弹跳，速度逐渐衰减。

场景四：液体倒入空杯。 在给定初始空杯图像条件下，基础模型让液体在倒入动作发生前就出现在杯底。Phantom则保持了杯子的初始空置状态，液体随倒入动作出现。

场景五：海滩肥皂泡。 基础模型生成的泡泡像固体一样平移。Phantom生成的泡泡则表现出薄膜的轻盈特性，在风中拉伸、摆动、自然飘动。

场景六：高黏度液体倒入碗中。 基础模型在后半段让液体像落入深渊般消失，缺乏堆积感。Phantom则生成了液体缓慢流动、层层叠加、形成黏性流体特有褶皱波纹的画面。

这些对比不仅仅是视觉效果的优化，更是物理合理性层面的本质性提升。它们表明，Phantom在一定程度上学会了支配这些现象的物理规律，而非仅仅模仿其表面视觉模式。

归根结底，Phantom这项研究揭示了一个深刻的见解：要让AI系统真正理解世界，仅靠“观看”海量数据是不够的，还需要在架构层面为其配备专门用于“思考”物理的模块，使其在生成视觉内容的同时，能够同步追踪和推理其背后的物理逻辑。这一思路的价值远不止于让生成的皮球弹跳更真实，它标志着AI从“视觉模仿者”向“物理理解者”迈出了关键一步。

当然，这项研究也存在其局限性。目前，Phantom的物理理解能力依赖于V-JEPA2编码器所能提取的特征，而V-JEPA2本身的能力边界也构成了Phantom的上限。此外，所使用的训练数据集OpenVidHD-0.4M并非专为物理场景设计，这意味着某些特殊或极端的物理交互可能仍是盲区。评测指标中“多样性”的下降，也提示我们需要更完善的评估体系来衡量“物理合理性”与“生成多样性”之间的平衡。

然而，这些都是未来可以持续改进的方向。Phantom作为一种将物理推理内化到视频生成模型本身的创新尝试，已经证明了这条技术路线的可行性与有效性。它为构建更智能、更理解世界运行方式的生成式AI，提供了一个坚实而有启发性的起点。

Q&A

Q1：Phantom模型是如何让AI理解物理规律的？

A：Phantom的核心架构创新在于，它在原有视频生成模型旁并行增设了一条“物理推理轨道”。该轨道利用预训练的V-JEPA2视频理解模型，从视频帧中提取隐含的物理状态特征（如运动趋势、碰撞属性）。物理轨道与视觉轨道通过“双向交叉注意力”机制进行持续、深度的信息交互，使得画面生成过程与物理状态推断过程能够相互校正。在训练时，模型同时学习预测未来画面的视觉内容和对应的物理状态表示，从而将物理规律内化到生成机制中。

Q2：Phantom和其他让AI视频更符合物理的方法有什么区别？

A：现有主流方法多在模型外部进行干预，例如利用大型语言模型优化提示词、接入外部物理模拟器、或进行跨模型的特征对齐等。这些方法要么增加了额外的推理成本，要么未能从根本上改变模型内部的推理逻辑。Phantom的根本区别在于，它将物理推理模块直接集成到生成模型的内部架构中，使模型在生成每一帧时都能同步进行物理状态追踪与整合，无需外部辅助，推理过程也无额外步骤。

Q3：Phantom训练需要大量专门的物理视频数据吗？

A：不需要。Phantom使用的OpenVidHD-0.4M是一个通用的高质量视频-文本数据集，并非专门针对物理场景收集。这恰恰证明了Phantom框架的有效性：其物理理解能力并非来自对特定物理场景的机械记忆，而是通过其独特的双轨训练机制，从广泛的日常视觉经验中自主地抽象、提炼并泛化出了对物理规律的感知。