WorldBench测评:加州大学洛杉矶分校如何用物理考试重塑AI模型能力
这项由加州大学洛杉矶分校联合索尼AI、耶鲁大学和美国陆军研究实验室共同完成的研究,于2025年1月29日发布在预印本平台arXiv上,论文编号为arXiv:2601.21282v1。它为评估人工智能的物理常识,提供了一个前所未有的精密标尺。
看到积木塔即将倒塌,或是皮球滚下楼梯,人类能瞬间预判其轨迹。这种对物理规律的直觉,对我们而言与生俱来,但对人工智能来说,却是一道难以逾越的鸿沟。近年来,诸如英伟达Cosmos等“世界模型”声称已能大规模学习此类技能,甚至有望成为真实世界的合成数据生成器。然而,这些声明是否经得起推敲?要回答这个问题,关键在于能否对模型的物理理解能力进行深入、精确的“体检”。
现有的评估基准,就像一张把所有科目混在一起的综合试卷——题目涵盖了重力、摩擦、碰撞等多种概念。当模型考砸了,我们根本无法判断它到底是“力学”没学好,还是“运动学”不及格。更麻烦的是,评判标准往往是简单的“对”或“错”,这就像用“美不美”来评判一幅画的透视是否准确,完全无法区分“视觉上逼真”与“物理上正确”之间的微妙差别。
于是,WorldBench应运而生。它的核心思路,是为每个物理概念设计独立的“专项测验”。这套全新的基准测试系统分为两大模块:第一部分考察“直觉物理理解”,评估模型对物体永存、支撑关系等基本概念的把握;第二部分则进行更严格的“物理参数估计”,要求模型精确遵循重力加速度、流体粘度等可测量的物理常数。
用这套系统测试当前最先进的视频生成模型后,一个鲜明的对比浮出水面:这些模型能生成视觉上令人信服的抛物线运动,却无法让球以正确的9.8米每二次方秒的重力加速度下落。这清晰地揭示了一个关键问题:视觉的真实感与物理的准确性之间,存在着一道巨大的鸿沟。对于那些寄望于用世界模型生成合成数据来训练机器人或自动驾驶系统的应用而言,这一发现无疑敲响了警钟。
一、两套“考试系统”:从直觉到精确的双重检验
WorldBench的设计哲学,借鉴了培养物理学家的思路:既需要敏锐的物理直觉,也离不开严谨的数学计算。因此,它构建了两套互补的评估体系。
第一套“直觉物理理解”测试,关注四个核心常识:运动物理学(物体如何移动与相互作用)、物体永存性(物体被遮挡时是否依然存在)、支撑关系(物体如何保持平衡或掉落),以及尺度透视关系(物体大小如何随距离变化)。
第二套“物理参数估计”测试则更为严苛,它设计了三个精密的物理实验:重力实验(测试自由落体与抛物运动)、粘度实验(观察钢球在不同液体中的下沉),以及摩擦实验(测量物体在不同表面的滑动)。
为确保测试的准确与可重复,所有场景均使用结合了PyBullet精确物理引擎与Blender高质量渲染器的开源平台Kubric生成。最终,研究团队构建了包含469个视频的直觉测试集,以及279个视频的参数测试集,通过随机化物体属性,形成了丰富多样的考题。
二、创新的评估方法:从视频到物理参数的精确提取
WorldBench的评估过程,宛如一套精密的“物理侦探系统”,致力于从视频的像素中,还原出隐藏的物理定律。
对于直觉测试,方法的核心是利用SAM2模型追踪视频中物体的运动轨迹。通过比较生成视频与真实情况在物体分割上的差异,系统可以量化模型在物体位置、形状一致性等方面的表现。
参数估计的挑战则更大,需要从单目视频中反推出三维世界的物理参数。研究团队的解决方案颇为巧妙:他们在每个视频中放置一个已知尺寸的棋盘格作为“标尺”,借此校准相机参数。同时,通过精心设计实验,确保物体主要在平行于相机的平面内运动,从而简化了深度估计问题。
获取物体的三维运动轨迹后,便可进行精确计算。例如,通过对下落物体的位置数据进行二次拟合,可直接估算其加速度,并与标准重力加速度对比。对于摩擦和粘度,则分别运用斜面运动公式和斯托克斯定律进行计算。
这套方法在真实拍摄视频上得到了验证:估算出的重力加速度接近9.8,不同液体的粘度值也均在合理误差范围内,证明了其作为“物理尺规”的可靠性。
三、令人意外的发现:视觉真实与物理准确的巨大鸿沟
当WorldBench这把尺子量到当前顶尖的世界模型(如Cosmos系列)和视频生成模型(如Wan 2.2、CogVideoX)身上时,结果令人深思。
在直觉物理测试中,所有模型的表现均未达预期。随着视频时间推移,误差会像滚雪球一样累积放大。
在物理参数测试中,暴露的问题更为严重。几乎所有模型对重力加速度的估算都严重偏离真实值。例如,Cosmos-1模型估算的重力值仅在4.2米每二次方秒左右;而CogVideoX模型甚至给出了负的重力加速度值,这意味着在它生成的视频里,物体可能会“向上掉落”。在粘度测试中,模型也常常混淆蜂蜜和水的特性。
这些发现指向一个根本性问题:当前的模型更像是通过海量视频数据记住了“视觉模式”,而非理解了背后的“物理定律”。它们能画出逼真的抛物线,却不知道支配这条曲线的公式是什么。这对于需要高物理保真度的合成数据应用而言,是一个不容忽视的风险。
四、深度诊断:AI模型的物理认知盲点
WorldBench的价值不仅在于给出总分,更在于它能进行“科目诊断”,精准定位模型的认知盲区。
物体永存性是最大的短板,模型在处理遮挡与再现时表现糟糕。尺度透视相对较好,但模型仍会犯物体变形速率错误等基础失误。在支撑关系上,模型能处理稳定状态,却难以预测失稳的临界点。
更深入的分析揭示了几个关键模式:
1. 高方差与不一致性:相同输入条件下,模型的输出结果波动极大,缺乏可重复性,这对实际应用是致命的。
2. “平均化”倾向:面对极端物理属性(如高粘度蜂蜜),模型倾向于将其行为向常见材料的平均值靠拢。
3. 训练数据偏向:模型对训练数据中常见的物体(如篮球)表现更好,表明其依赖的是具体视觉记忆,而非抽象规律。
4. 缺乏物理常识校验:模型会生成明显违背物理定律的场景,且自身无法察觉其不合理性。
这些诊断结果为模型改进指明了方向:仅靠大数据训练可能不够,需要将明确的物理约束和规律嵌入到模型架构或训练目标中。
五、扩展评估:语言理解能力的物理推理测试
除了“动手”生成视频,研究团队还为模型设计了一场“动口”的问答考试。他们从测试视频中选取了181个场景,针对每个场景提出自然语言问题,要求模型观看视频后作答。
题目形式包括判断对错和多项选择,例如:“椅子撞击地面时会顺时针旋转吗?”或“会有多少个多米诺骨&牌被推倒?”。
参与测试的包括GPT-4.1、Gemini、Claude等主流多模态大模型。然而,成绩最好的Gemini 2.5 Pro,整体准确率也仅为49.72%,略高于随机猜测。所有模型在物体永存性相关问题上再次遭遇滑铁卢,表现最差。
有趣的是,在“墙壁反弹”这类具体场景中,不同模型的表现差异巨大,这可能反映了它们训练数据与架构的不同侧重。但无论如何,语言测试的结果与视频生成测试相互印证,共同表明:当前最先进的AI模型,在物理常识的理解上,距离人类直觉仍有漫长的路要走。
这项研究的意义,远不止于揭示现状。它提供了一套标准化、多维度的评估工具(WorldBench),将推动整个领域朝着构建真正理解物理世界的AI系统迈进。它明确地告诉我们:要让AI成为可靠的“世界模拟器”,不能只满足于其生成内容的视觉魅力,必须深入考核其内在的物理一致性。这不仅是技术挑战,更是确保未来AI安全、可靠应用于现实世界的关键一步。
Q&A
Q1:WorldBench是什么?
A:WorldBench是由加州大学洛杉矶分校等机构开发的AI物理理解评估系统。它专门用来测试AI模型是否真正理解物理规律,而不仅仅是能生成好看的视频。系统分为两部分:一部分测试基本物理直觉(如物体永存性),另一部分测试精确的物理参数(如重力加速度)。
Q2:现在的AI视频生成模型物理理解能力如何?
A:测试结果很令人担忧。虽然这些模型能生成视觉上很真实的视频,但在物理准确性方面表现很差。比如很多模型无法正确模拟9.8米每二次方秒的重力加速度,有些甚至产生负值重力。所有测试模型都缺乏生成可靠物理交互所需的一致性。
Q3:WorldBench评估系统有什么特别之处?
A:WorldBench最大的创新是“分科考试”式的设计。传统测试把多个物理概念混在一起,无法判断具体哪里有问题。WorldBench则为每个物理概念设计专门测试,能精确诊断AI模型在哪个具体物理规律上有缺陷,就像医生能准确定位病变部位一样。
