谷歌DeepMind联合多机构发现AI视频物理考试评分体系存在漏洞并亲手修复
这项由德国慕尼黑工业大学、纽伦堡工业大学、图宾根大学AI中心、亥姆霍兹人工智能中心与谷歌DeepMind联合完成的研究,以预印本形式于2026年6月17日发布,论文编号为arXiv:2606.18943。有意深入研读的读者可通过该编号在arXiv平台获取完整论文。
AI视频模型真的"理解物理"吗?一个看似荒谬,实则拷问技术根基的核心命题
当你用手机拍摄一杯水从桌沿坠落的瞬间,并将这段视频的前三秒输入AI,要求它预测后续五秒的演化——AI生成的画面,究竟是“基于物理定律推理出的必然”,还是“视觉上可信,实则毫无底层逻辑的蒙对”?
这个问题的分量远超表面。如今,越来越多的AI视频生成模型被寄予“世界模型”的厚望,不仅需产出吸睛的视觉内容,更要支撑起机器人对物理世界的认知与预测能力。换句话说,若这些模型要部署在机器人操控、科学仿真或自动驾驶辅助等场景中,它们必须扎实掌握物理规律,而非仅制造“看着合理”的视觉幻象。
然而,要评判AI是否“真懂物理”,一把可靠的标尺不可或缺。2026年初诞生的Physics-IQ基准测试正是为此设计——它通过让AI续拍真实物理实验视频,再将AI输出与真实记录比对,量化出一个“物理理解得分”。
这套打分机制听起来严谨科学。但研究团队在深入审查后发现问题:这把量尺本身存在系统性偏差。于是,团队投入大量精力重新校准,并将修正后的版本命名为Physics-IQ Verified。
一、原版"物理考试"的测试机制
Physics-IQ基准测试的核心设计理念类似开放性命题作文。研究人员在实验室内录制了66种物理实验场景,涵盖固体碰撞、流体运动、热力学现象、光学效果与磁力互动。每种实验均从三个机位拍摄,并重复执行两次,总计生成396段视频。
每段视频长约8秒:前3秒呈现实验初始状态,后5秒为关键物理过程——例如钢球释放后的滚动轨迹,或颜料入水后的扩散形态。AI的任务是:基于前3秒的视觉信息及一段文字描述,预测并生成后5秒的连续画面。
评分阶段,系统将AI生成的5秒视频与真实录制的5秒视频,在四个维度上逐一对比。前三个维度均基于“运动激活图”:本质上是逐帧标记发生变化区域,进而计算AI的“变化区域”与真实记录的“变化区域”的重叠率。这三个指标分别解答:运动发生在何处?运动发生的时空信息是否匹配?运动的强度是否一致?第四个维度则在像素层面对比AI画面与真实画面的差异,考察的是:画面外观是否吻合?
最终分数以第二次实验录像作为“人类自然误差”的基准线——因为同一实验即便重复两次,细节也不可能完全一致。此基准线的意义在于:满分代表“达到与第二次重复实验同等的准确度”,而非“达到像素级完美匹配”。
这套设计思路本身合理,但研究团队发现,从执行细节到最终计分,整个流程中藏匿着三类系统性问题,足以让分数偏离其原本意图测量的“真实物理理解能力”。
二、问题一:考题本身描述不精确
首批问题最为直观:题目出得模糊。
物理考试中,题意不清会导致学生因看不懂题干而非不懂物理而答错,这对测量真实物理水平是一种噪声污染。Physics-IQ的文字提示词也存在类似弊端,团队将其归纳为四类,按严重程度排序。
最严重的是“事实偏差”——文字描述与视频实际内容不符。论文中举了一个典型案例:视频中滚动的是灰褐色网球,提示词却写成了“蓝色和黄色网球”。AI按描述生成,颜色对了可能动作错,颜色错了或许动作正确,此时打出的分数,究竟在测量什么?
次严重的是“时序错乱”——提示词描述的动作,在视频前3秒已完成,但文字却描述为即将发生。例如,某项实验中网球在初始帧前已被释放,但提示词却说“球被握住后即将松开”。AI无法判断是否要“再松一次”,只能随机猜测。
第三类是“关键信息缺失”——描述未提供给AI对预测至关重要的细节。例如,陶瓷马克杯从桌上坠落,但提示词仅说“黄色马克杯”,未提及材质,也未提及是否会碎裂——而这恰恰是决定后续画面走向的核心变量。从纯物理推理角度看,不知杯子是陶瓷还是橡胶,就无法预判其落地后的状态。
第四类问题相对轻微,是“表述模糊”——动作描述过于笼统,缺乏足够约束,导致AI可生成多种“看起来合理”但差异巨大的结果。
研究团队审查了全部198段待评估视频,发现其中69段——即超过三分之一——存在上述至少一类问题。
除内容问题外,还有形式性问题:原始提示词未针对不同AI模型的“语言习惯”进行适配。犹如用普通话写考题,交给习惯用粤语作答的人,即便题目无误,理解也会有偏差。不同AI视频模型对提示词的结构与表达方式各有偏好,原始Physics-IQ完全忽略了这一点。
团队的解决方案是:为每道题重写提示词,并将其拆分为六个固定功能区:场景初始状态描述、场景补充信息、动作描述、摄影机规格、画面风格要求,以及一条明确的边界声明——“本视频仅包含上述内容,不会出现其他人物或互动”。后两个区域为新增,原始Physics-IQ中完全不存在。
值得一提的是“边界声明”的设计。团队观察到,使用原始提示词让Wan 2.2生成一只静止的黄色橡皮鸭时,模型会自发地在视频中“变”出一只手去戳它——因为提示词未明确说明“只有鸭子,没有其他物体”。添加边界声明后,模型便不再自行发挥。
另一个细节:所有提示词都被改写为正面陈述,避免否定句。这并非出于习惯,而是有研究依据——多项针对大语言模型和视觉语言模型的研究发现,这些AI对“不要做某事”的理解能力远低于“请做某事”,部分模型提供商甚至在其官方指南中明确建议用户避免否定指令。
三、问题二:评分规则对各题权重不公
第二个问题更为隐蔽,需要细致理解。
原始Physics-IQ的评分是在整个数据集层面统一计算:将所有198个视频的得分相加,再除以所有198个“自然误差基准”的总和,得出一个比值。
这听起来合理,但存在隐患:这个“除法”导致不同视频的权重不同,而这种权重差异与物理理解能力无关。
打个比方:假设有两道物理题,第一道的“自然误差基准”很小(如磁铁吸引铁片,每次实验结果几乎一致),第二道的“自然误差基准”很大(如水从高处倒下的飞溅形态,每次都有差异)。在原始评分体系下,第二道题的“分母”较大,即使AI在该题上表现优异,其对总分的贡献反而被放大;而第一道题即使AI答对,由于分母小,很难通过“超越基准”获得高分。
换句话说,实验本身的“自然随机性”大小,会系统性影响最终分数对不同实验的权重分配,这恰恰与我们想要测量的“AI物理推理能力”没有直接关联。
研究团队的解决方案是:将评分从“数据集级别”改为“每道题单独打分”。在新版Physics-IQ Verified评分体系中,每段视频独立计算四个维度的得分,每个维度各占四分之一,然后平均得出该题的“物理理解分”。最后,所有题目的分数再进行平均,得出总分。
这样一来,每道题对最终分数的影响完全相等,不再被“自然随机性”扭曲。同时还有一个意外收获:研究者可以追溯到每道具体题目的分数,了解AI在哪类物理场景中表现优异、在哪些场景中存在短板,而非只能看到一个笼统的总分。这对指导模型改进的意义更大。
四、问题三:视频中混入了"干扰运动"
第三个问题最为直观,也最容易通过图像说明(论文中有大量配图,此处用文字描述)。
Physics-IQ的三项IoU指标,本质上都在测量“何处发生了运动”。具体做法是:对于视频的每一帧,标记出与前一帧相比“发生变化”的区域,形成“运动热力图”。理论上,优秀的AI应在视频中的正确位置、正确时间产生运动,与真实视频的热力图高度重合。
但问题在于:真实录制的视频中,并非所有运动都来自我们关心的物理现象本身。
研究团队将这类无关运动称为“虚假激活”或“干扰项”,并分为两类:一类是“确定性干扰”,如实验装置中的旋转台,实验结束后仍在转动,其运动持续产生激活信号,但与物理效果无关。另一类是“非确定性干扰”,即偶然出现、无法预测的干扰,如摄像机轻微抖动、背景中有人影闪过、或用于抓取物品的机械臂在物体落地后继续移动产生的额外激活。
这两类干扰的危害机制不同。确定性干扰虽存在,但至少可预测,模型足够聪明则理论上能模拟。非确定性干扰则棘手得多——它们随机出现,提示词不可能告诉AI“录制时摄像机将在第87帧微微抖动”,因此AI无论如何也无法预测,由此导致的失分完全不反映其物理推理能力。
研究团队的解决方案是手工标注。他们对每段需修正的真实视频添加两类注释:一类是“效果结束帧”,标记物理现象在某一帧结束;该帧之后的所有画面被替换为定格画面,杜绝后续无关运动产生激活。另一类是“冻结区域”,在物理现象进行时段内,将视频中存在干扰运动的空间区域替换为静止画面,清除该区域对热力图的污染。
这两个操作的底层思路一致:不是涂掉问题区域,而是使问题区域“静止”。选择“静止”而非“遮盖”,是因为遮盖本身会产生视觉边界,从而生成新的激活信号,制造新的干扰。静止则不会。
经过这一处理,198段视频中,有59段存在需要处理的干扰问题,约占总量的30%。在所有“活跃帧”(即存在运动激活的帧)中,超过四分之一被不同程度修改以移除干扰成分。
五、修复之后,分数发生了什么变化
研究团队分别使用修改前和修改后的两套评估体系,测试了六个当前主流的图像转视频AI模型:三个开源模型(Wan 2.2、HunyuanVideo 1.5、Cosmos3-Nano)和三个闭源商业模型(Sora 2、P-Video、Grok Imagine Video)。
结果揭示出一些出人意料的发现。
从绝对分数看,使用修改后的评估体系,除Wan 2.2外,其余五个模型的最终得分均有所上升。这主要来自两方面:改善后的提示词使AI更准确理解任务,生成更符合物理预期的视频;新的逐题打分方式消除了原有体系对某些题目的权重压低。
但Wan 2.2是个例外——其得分反而下降。研究团队分析认为,这主要来自两方面的叠加效应:第一,Wan 2.2对改善后的提示词反应不如其他模型正面,使用更规范的提示词后得分反而下滑;第二,干扰项清除后,Wan 2.2的得分损失最大,表明其原始高分有相当一部分来自对视频中“无关运动”的匹配,而非对物理现象本身的准确预测。
从排名看,变化相当显著。原始体系下,Wan 2.2排第一,Grok Video第二,HunyuanVideo第三,P-Video第四,Cosmos3-N第五,Sora 2垫底。切换至修改后体系,Grok Video和HunyuanVideo跃升至第一、第二,Wan 2.2跌至第三,Cosmos3-N升至第四,Sora 2升至第五,P-Video落至最后。
研究团队使用Kendall's τ统计量衡量两套排名的差异程度:0表示完全无关,1表示完全一致。计算结果为0.46——这意味着两套体系下的排名存在“中等程度但不可忽视”的差异,足以让研究者和开发者对模型的相对实力做出不同判断。
统计检验进一步证实这种差异并非偶然波动:通过反复重采样模拟出500个虚拟评估场景,两套体系各自内部的排名稳定性接近完美(相关系数超过0.97),但两套体系间的排名相关性明显更低,且两者的置信区间不重叠——这是排名变化具有实质意义、而非统计噪声的有力证据。
关于改进后的逐题打分方式,有一处有趣观察:单独切换到新打分公式,不改变提示词也不清除干扰,排名几乎不变,但所有模型的绝对分数均会均匀上升。这说明新打分公式本身主要改善了分数的“可解读性”和“可追溯性”,而非系统性偏袒或惩罚某类模型。
六、改进了什么,又没改变什么
理解这项工作,有一个角度特别重要:研究团队并未重新设计Physics-IQ,而是在保持其核心框架不变的前提下,修补了三类具体的测量缺陷。
那么这三类修补各自的独立影响有多大?论文做了系统性分拆分析。
提示词改善带来的影响:用改善后的提示词替换原始提示词,在保持其他一切不变的情况下,五个模型的得分均有统计显著的提升,效应量达到“中等到较大”级别。Sora 2的提升尤为突出,因为原始提示词下Sora 2倾向于生成有明显摄像机移动的视频,而改善后的提示词明确要求静止镜头,生成质量大幅改善。
干扰项清除带来的影响:将真实视频中的干扰运动清除后,所有模型基于运动重合度的得分均有统计显著的下降,效应量达到“较大”级别。这一发现的重要性在于:它表明在原始评估体系下,模型的部分分数来自对“非物理现象”的匹配,而非对物理规律的正确预测。Wan 2.2在这方面的分数下降最大,直接解释了其排名下滑。
打分公式改变带来的影响:如前所述,对排名几乎没有影响,但使每道题的贡献权重更加公平,并提供逐题分析能力。
说到底,这项研究告诉了我们什么
归根结底,这篇论文在做一件看似朴素但意义深远的事:检查我们用于衡量AI物理能力的“量尺”,是否真正在测量它应该测量的东西。
研究结论相当明确:原始Physics-IQ的尺子存在三处系统性误差——题目描述不准确、评分对各题权重不公、以及参考答案中混入了无关的干扰运动。这三处误差并非可忽略的小细节,而是会系统性影响模型的绝对得分和相对排名。
对普通人来说,这意味着下次看到“AI物理理解能力测试结果”时,需要多问一句:这个测试本身,是否经过严格校验?就像一把生锈的尺子量出的长度,不能当作可靠数据使用。
对AI研究者和开发者来说,这意味着一旦某个评估基准成为行业标准,其缺陷会通过优化目标传导至模型训练本身,使模型朝着“在有缺陷的尺子上看起来更好”的方向进化,而非“真正更好地理解物理”。Physics-IQ在2026年初已被OpenAI的Sora 2、Meta的VJEPA-2等多个顶级视频生成项目引用为评估标准,其分数直接影响研究方向的选择。在此背景下,修复这把尺子,不仅是学术洁癖,更是对整个领域负责的行为。
当然,即便修复后的Physics-IQ Verified,研究团队也坦诚承认其局限:它仍基于特定视角下的真实视频录制,当AI生成一个“物理上同样合理,但与参考视频略有不同”的结果时,它仍会被扣分。毕竟,许多物理过程具有内在随机性,同样条件下倒水,水花形态每次都可能有所差异,但都正确、都符合物理规律。如何处理“多个合理答案”的问题,仍是下一步需要面对的挑战。
有意深入探讨这一话题的读者,可在arXiv上通过编号2606.18943找到完整论文,亦可访问谷歌DeepMind的Physics-IQ GitHub页面,查看改进后的完整评估代码与数据。
---
Q&A
Q1:Physics-IQ Verified与原始Physics-IQ的具体区别是什么?
A:Physics-IQ Verified主要做了三方面改进:修正了原始评估中34.8%存在问题的提示词(包括事实偏差、时序错乱、信息缺失和表述模糊四类问题);清除了29.8%视频中存在的无关运动干扰,使评分更准确反映物理现象本身;同时将评分从数据集整体计算改为每道题单独计分,确保每段视频对总分的贡献完全平等,也使分析者能追溯到具体哪类物理场景表现好或差。
Q2:Wan 2.2为何在修改后的Physics-IQ Verified中排名下滑?
A:Wan 2.2是六个被测模型中唯一在改用改善后提示词后得分反而下降的模型,说明其对规范化提示词的响应不如其他模型。更重要的是,清除视频中的干扰运动后,Wan 2.2的得分损失在所有模型中最大,表明其原始高分有相当一部分来自对“与物理现象无关的运动”的匹配,而非真正准确预测了物理效果。这两方面叠加,导致其排名从第一跌至第三。
Q3:AI视频模型的"物理理解能力"目前处于什么水平?
A:根据Physics-IQ Verified的评测,当前表现最好的模型得分约在33至35分(满分100),距离“能像做第二次重复实验一样准确”这一参照上限还有相当距离。论文还提到,目前所有模型中得分最高的历史记录约为62.6分,但这是在存在测量缺陷的原始体系下取得的。总体而言,当前AI视频模型对物理规律的理解仍然十分有限,视觉上逼真并不等于物理上准确。
