谷歌DeepMind联合多机构发现AI视频物理考试评分体系存在漏洞并亲手修复

2026-06-22阅读 0热度 0

DeepMind

这项由德国慕尼黑工业大学、纽伦堡工业大学、图宾根大学AI中心、亥姆霍兹人工智能中心与谷歌DeepMind联合完成的研究，以预印本形式于2026年6月17日发布，论文编号为arXiv:2606.18943。有意深入研读的读者可通过该编号在arXiv平台获取完整论文。

AI视频模型真的"理解物理"吗？一个看似荒谬，实则拷问技术根基的核心命题

当你用手机拍摄一杯水从桌沿坠落的瞬间，并将这段视频的前三秒输入AI，要求它预测后续五秒的演化——AI生成的画面，究竟是“基于物理定律推理出的必然”，还是“视觉上可信，实则毫无底层逻辑的蒙对”？

这个问题的分量远超表面。如今，越来越多的AI视频生成模型被寄予“世界模型”的厚望，不仅需产出吸睛的视觉内容，更要支撑起机器人对物理世界的认知与预测能力。换句话说，若这些模型要部署在机器人操控、科学仿真或自动驾驶辅助等场景中，它们必须扎实掌握物理规律，而非仅制造“看着合理”的视觉幻象。

然而，要评判AI是否“真懂物理”，一把可靠的标尺不可或缺。2026年初诞生的Physics-IQ基准测试正是为此设计——它通过让AI续拍真实物理实验视频，再将AI输出与真实记录比对，量化出一个“物理理解得分”。

这套打分机制听起来严谨科学。但研究团队在深入审查后发现问题：这把量尺本身存在系统性偏差。于是，团队投入大量精力重新校准，并将修正后的版本命名为Physics-IQ Verified。

一、原版"物理考试"的测试机制

Physics-IQ基准测试的核心设计理念类似开放性命题作文。研究人员在实验室内录制了66种物理实验场景，涵盖固体碰撞、流体运动、热力学现象、光学效果与磁力互动。每种实验均从三个机位拍摄，并重复执行两次，总计生成396段视频。

每段视频长约8秒：前3秒呈现实验初始状态，后5秒为关键物理过程——例如钢球释放后的滚动轨迹，或颜料入水后的扩散形态。AI的任务是：基于前3秒的视觉信息及一段文字描述，预测并生成后5秒的连续画面。

评分阶段，系统将AI生成的5秒视频与真实录制的5秒视频，在四个维度上逐一对比。前三个维度均基于“运动激活图”：本质上是逐帧标记发生变化区域，进而计算AI的“变化区域”与真实记录的“变化区域”的重叠率。这三个指标分别解答：运动发生在何处？运动发生的时空信息是否匹配？运动的强度是否一致？第四个维度则在像素层面对比AI画面与真实画面的差异，考察的是：画面外观是否吻合？

最终分数以第二次实验录像作为“人类自然误差”的基准线——因为同一实验即便重复两次，细节也不可能完全一致。此基准线的意义在于：满分代表“达到与第二次重复实验同等的准确度”，而非“达到像素级完美匹配”。

这套设计思路本身合理，但研究团队发现，从执行细节到最终计分，整个流程中藏匿着三类系统性问题，足以让分数偏离其原本意图测量的“真实物理理解能力”。

二、问题一：考题本身描述不精确

首批问题最为直观：题目出得模糊。

物理考试中，题意不清会导致学生因看不懂题干而非不懂物理而答错，这对测量真实物理水平是一种噪声污染。Physics-IQ的文字提示词也存在类似弊端，团队将其归纳为四类，按严重程度排序。

最严重的是“事实偏差”——文字描述与视频实际内容不符。论文中举了一个典型案例：视频中滚动的是灰褐色网球，提示词却写成了“蓝色和黄色网球”。AI按描述生成，颜色对了可能动作错，颜色错了或许动作正确，此时打出的分数，究竟在测量什么？

次严重的是“时序错乱”——提示词描述的动作，在视频前3秒已完成，但文字却描述为即将发生。例如，某项实验中网球在初始帧前已被释放，但提示词却说“球被握住后即将松开”。AI无法判断是否要“再松一次”，只能随机猜测。

第三类是“关键信息缺失”——描述未提供给AI对预测至关重要的细节。例如，陶瓷马克杯从桌上坠落，但提示词仅说“黄色马克杯”，未提及材质，也未提及是否会碎裂——而这恰恰是决定后续画面走向的核心变量。从纯物理推理角度看，不知杯子是陶瓷还是橡胶，就无法预判其落地后的状态。

第四类问题相对轻微，是“表述模糊”——动作描述过于笼统，缺乏足够约束，导致AI可生成多种“看起来合理”但差异巨大的结果。

研究团队审查了全部198段待评估视频，发现其中69段——即超过三分之一——存在上述至少一类问题。

除内容问题外，还有形式性问题：原始提示词未针对不同AI模型的“语言习惯”进行适配。犹如用普通话写考题，交给习惯用粤语作答的人，即便题目无误，理解也会有偏差。不同AI视频模型对提示词的结构与表达方式各有偏好，原始Physics-IQ完全忽略了这一点。

团队的解决方案是：为每道题重写提示词，并将其拆分为六个固定功能区：场景初始状态描述、场景补充信息、动作描述、摄影机规格、画面风格要求，以及一条明确的边界声明——“本视频仅包含上述内容，不会出现其他人物或互动”。后两个区域为新增，原始Physics-IQ中完全不存在。

值得一提的是“边界声明”的设计。团队观察到，使用原始提示词让Wan 2.2生成一只静止的黄色橡皮鸭时，模型会自发地在视频中“变”出一只手去戳它——因为提示词未明确说明“只有鸭子，没有其他物体”。添加边界声明后，模型便不再自行发挥。

另一个细节：所有提示词都被改写为正面陈述，避免否定句。这并非出于习惯，而是有研究依据——多项针对大语言模型和视觉语言模型的研究发现，这些AI对“不要做某事”的理解能力远低于“请做某事”，部分模型提供商甚至在其官方指南中明确建议用户避免否定指令。

三、问题二：评分规则对各题权重不公

第二个问题更为隐蔽，需要细致理解。

原始Physics-IQ的评分是在整个数据集层面统一计算：将所有198个视频的得分相加，再除以所有198个“自然误差基准”的总和，得出一个比值。

这听起来合理，但存在隐患：这个“除法”导致不同视频的权重不同，而这种权重差异与物理理解能力无关。

打个比方：假设有两道物理题，第一道的“自然误差基准”很小（如磁铁吸引铁片，每次实验结果几乎一致），第二道的“自然误差基准”很大（如水从高处倒下的飞溅形态，每次都有差异）。在原始评分体系下，第二道题的“分母”较大，即使AI在该题上表现优异，其对总分的贡献反而被放大；而第一道题即使AI答对，由于分母小，很难通过“超越基准”获得高分。

换句话说，实验本身的“自然随机性”大小，会系统性影响最终分数对不同实验的权重分配，这恰恰与我们想要测量的“AI物理推理能力”没有直接关联。

研究团队的解决方案是：将评分从“数据集级别”改为“每道题单独打分”。在新版Physics-IQ Verified评分体系中，每段视频独立计算四个维度的得分，每个维度各占四分之一，然后平均得出该题的“物理理解分”。最后，所有题目的分数再进行平均，得出总分。

这样一来，每道题对最终分数的影响完全相等，不再被“自然随机性”扭曲。同时还有一个意外收获：研究者可以追溯到每道具体题目的分数，了解AI在哪类物理场景中表现优异、在哪些场景中存在短板，而非只能看到一个笼统的总分。这对指导模型改进的意义更大。

四、问题三：视频中混入了"干扰运动"

第三个问题最为直观，也最容易通过图像说明（论文中有大量配图，此处用文字描述）。

Physics-IQ的三项IoU指标，本质上都在测量“何处发生了运动”。具体做法是：对于视频的每一帧，标记出与前一帧相比“发生变化”的区域，形成“运动热力图”。理论上，优秀的AI应在视频中的正确位置、正确时间产生运动，与真实视频的热力图高度重合。

但问题在于：真实录制的视频中，并非所有运动都来自我们关心的物理现象本身。

研究团队将这类无关运动称为“虚假激活”或“干扰项”，并分为两类：一类是“确定性干扰”，如实验装置中的旋转台，实验结束后仍在转动，其运动持续产生激活信号，但与物理效果无关。另一类是“非确定性干扰”，即偶然出现、无法预测的干扰，如摄像机轻微抖动、背景中有人影闪过、或用于抓取物品的机械臂在物体落地后继续移动产生的额外激活。

这两类干扰的危害机制不同。确定性干扰虽存在，但至少可预测，模型足够聪明则理论上能模拟。非确定性干扰则棘手得多——它们随机出现，提示词不可能告诉AI“录制时摄像机将在第87帧微微抖动”，因此AI无论如何也无法预测，由此导致的失分完全不反映其物理推理能力。

研究团队的解决方案是手工标注。他们对每段需修正的真实视频添加两类注释：一类是“效果结束帧”，标记物理现象在某一帧结束；该帧之后的所有画面被替换为定格画面，杜绝后续无关运动产生激活。另一类是“冻结区域”，在物理现象进行时段内，将视频中存在干扰运动的空间区域替换为静止画面，清除该区域对热力图的污染。

这两个操作的底层思路一致：不是涂掉问题区域，而是使问题区域“静止”。选择“静止”而非“遮盖”，是因为遮盖本身会产生视觉边界，从而生成新的激活信号，制造新的干扰。静止则不会。

经过这一处理，198段视频中，有59段存在需要处理的干扰问题，约占总量的30%。在所有“活跃帧”（即存在运动激活的帧）中，超过四分之一被不同程度修改以移除干扰成分。

五、修复之后，分数发生了什么变化

研究团队分别使用修改前和修改后的两套评估体系，测试了六个当前主流的图像转视频AI模型：三个开源模型（Wan 2.2、HunyuanVideo 1.5、Cosmos3-Nano）和三个闭源商业模型（Sora 2、P-Video、Grok Imagine Video）。

结果揭示出一些出人意料的发现。

从绝对分数看，使用修改后的评估体系，除Wan 2.2外，其余五个模型的最终得分均有所上升。这主要来自两方面：改善后的提示词使AI更准确理解任务，生成更符合物理预期的视频；新的逐题打分方式消除了原有体系对某些题目的权重压低。

但Wan 2.2是个例外——其得分反而下降。研究团队分析认为，这主要来自两方面的叠加效应：第一，Wan 2.2对改善后的提示词反应不如其他模型正面，使用更规范的提示词后得分反而下滑；第二，干扰项清除后，Wan 2.2的得分损失最大，表明其原始高分有相当一部分来自对视频中“无关运动”的匹配，而非对物理现象本身的准确预测。

从排名看，变化相当显著。原始体系下，Wan 2.2排第一，Grok Video第二，HunyuanVideo第三，P-Video第四，Cosmos3-N第五，Sora 2垫底。切换至修改后体系，Grok Video和HunyuanVideo跃升至第一、第二，Wan 2.2跌至第三，Cosmos3-N升至第四，Sora 2升至第五，P-Video落至最后。

研究团队使用Kendall's τ统计量衡量两套排名的差异程度：0表示完全无关，1表示完全一致。计算结果为0.46——这意味着两套体系下的排名存在“中等程度但不可忽视”的差异，足以让研究者和开发者对模型的相对实力做出不同判断。

统计检验进一步证实这种差异并非偶然波动：通过反复重采样模拟出500个虚拟评估场景，两套体系各自内部的排名稳定性接近完美（相关系数超过0.97），但两套体系间的排名相关性明显更低，且两者的置信区间不重叠——这是排名变化具有实质意义、而非统计噪声的有力证据。

关于改进后的逐题打分方式，有一处有趣观察：单独切换到新打分公式，不改变提示词也不清除干扰，排名几乎不变，但所有模型的绝对分数均会均匀上升。这说明新打分公式本身主要改善了分数的“可解读性”和“可追溯性”，而非系统性偏袒或惩罚某类模型。

六、改进了什么，又没改变什么

理解这项工作，有一个角度特别重要：研究团队并未重新设计Physics-IQ，而是在保持其核心框架不变的前提下，修补了三类具体的测量缺陷。

那么这三类修补各自的独立影响有多大？论文做了系统性分拆分析。

提示词改善带来的影响：用改善后的提示词替换原始提示词，在保持其他一切不变的情况下，五个模型的得分均有统计显著的提升，效应量达到“中等到较大”级别。Sora 2的提升尤为突出，因为原始提示词下Sora 2倾向于生成有明显摄像机移动的视频，而改善后的提示词明确要求静止镜头，生成质量大幅改善。

干扰项清除带来的影响：将真实视频中的干扰运动清除后，所有模型基于运动重合度的得分均有统计显著的下降，效应量达到“较大”级别。这一发现的重要性在于：它表明在原始评估体系下，模型的部分分数来自对“非物理现象”的匹配，而非对物理规律的正确预测。Wan 2.2在这方面的分数下降最大，直接解释了其排名下滑。

打分公式改变带来的影响：如前所述，对排名几乎没有影响，但使每道题的贡献权重更加公平，并提供逐题分析能力。

说到底，这项研究告诉了我们什么

归根结底，这篇论文在做一件看似朴素但意义深远的事：检查我们用于衡量AI物理能力的“量尺”，是否真正在测量它应该测量的东西。

研究结论相当明确：原始Physics-IQ的尺子存在三处系统性误差——题目描述不准确、评分对各题权重不公、以及参考答案中混入了无关的干扰运动。这三处误差并非可忽略的小细节，而是会系统性影响模型的绝对得分和相对排名。

对普通人来说，这意味着下次看到“AI物理理解能力测试结果”时，需要多问一句：这个测试本身，是否经过严格校验？就像一把生锈的尺子量出的长度，不能当作可靠数据使用。

对AI研究者和开发者来说，这意味着一旦某个评估基准成为行业标准，其缺陷会通过优化目标传导至模型训练本身，使模型朝着“在有缺陷的尺子上看起来更好”的方向进化，而非“真正更好地理解物理”。Physics-IQ在2026年初已被OpenAI的Sora 2、Meta的VJEPA-2等多个顶级视频生成项目引用为评估标准，其分数直接影响研究方向的选择。在此背景下，修复这把尺子，不仅是学术洁癖，更是对整个领域负责的行为。

当然，即便修复后的Physics-IQ Verified，研究团队也坦诚承认其局限：它仍基于特定视角下的真实视频录制，当AI生成一个“物理上同样合理，但与参考视频略有不同”的结果时，它仍会被扣分。毕竟，许多物理过程具有内在随机性，同样条件下倒水，水花形态每次都可能有所差异，但都正确、都符合物理规律。如何处理“多个合理答案”的问题，仍是下一步需要面对的挑战。

有意深入探讨这一话题的读者，可在arXiv上通过编号2606.18943找到完整论文，亦可访问谷歌DeepMind的Physics-IQ GitHub页面，查看改进后的完整评估代码与数据。

---

Q&A

Q1：Physics-IQ Verified与原始Physics-IQ的具体区别是什么？

A：Physics-IQ Verified主要做了三方面改进：修正了原始评估中34.8%存在问题的提示词（包括事实偏差、时序错乱、信息缺失和表述模糊四类问题）；清除了29.8%视频中存在的无关运动干扰，使评分更准确反映物理现象本身；同时将评分从数据集整体计算改为每道题单独计分，确保每段视频对总分的贡献完全平等，也使分析者能追溯到具体哪类物理场景表现好或差。

Q2：Wan 2.2为何在修改后的Physics-IQ Verified中排名下滑？

A：Wan 2.2是六个被测模型中唯一在改用改善后提示词后得分反而下降的模型，说明其对规范化提示词的响应不如其他模型。更重要的是，清除视频中的干扰运动后，Wan 2.2的得分损失在所有模型中最大，表明其原始高分有相当一部分来自对“与物理现象无关的运动”的匹配，而非真正准确预测了物理效果。这两方面叠加，导致其排名从第一跌至第三。

Q3：AI视频模型的"物理理解能力"目前处于什么水平？

A：根据Physics-IQ Verified的评测，当前表现最好的模型得分约在33至35分（满分100），距离“能像做第二次重复实验一样准确”这一参照上限还有相当距离。论文还提到，目前所有模型中得分最高的历史记录约为62.6分，但这是在存在测量缺陷的原始体系下取得的。总体而言，当前AI视频模型对物理规律的理解仍然十分有限，视觉上逼真并不等于物理上准确。

谷歌DeepMind联合多机构发现AI视频物理考试评分体系存在漏洞并亲手修复

相关阅读

最新教程

最新资讯