AI观察学习能力测评：多校合作研究揭示其物理交互潜力

2026-05-12阅读 0热度 0

科技设计

这项由新加坡科技设计大学、新加坡管理大学、中国科学技术大学及南洋理工大学联合主导的前沿研究，其预印本论文已于2026年2月在arXiv平台发布，编号为2602.21015v1。

面对一把结构复杂的机械锁，或是需要将异形积木严丝合缝装入盒中时，人类大脑能瞬间解析物体间的几何关系与物理约束，预判动作的可行性。这种与生俱来的物理直觉，恰恰是当前尖端人工智能系统所缺失的核心能力。研究发现，尽管AI在静态图像识别乃至基于图像的复杂问答上表现卓越，但一旦要求其在动态物理环境中执行多步骤的序列化操作，其性能便会急剧下滑。

症结在于评估范式。主流方法如同让AI进行“看图答题”——仅基于静态快照做出判断，而非在交互中验证理解。这种方式无法考核AI对隐式物理约束（例如操作顺序的因果依赖、运动路径的可行性）的真实掌握程度。

为填补这一关键评估空白，研究团队构建了全新的测试基准：CHAIN（动作与交互因果层次）。它本质上是一个为AI设计的虚拟物理实验室，内置一系列需要精确操作的3D拼装与空间装箱挑战。与被动问答不同，CHAIN强制AI在遵循物理法则的模拟环境中进行主动尝试、观察反馈并迭代策略。

评估范式的根本性迁移：从静态分析到动态交互

传统AI评估好比仅凭成品照片评判厨师水平，却不让其接触灶台。主流的视觉问答任务便是如此：AI分析单张图像后给出答案。它能准确描述“红色积木位于蓝色积木左侧”，但这与在物理世界中执行操作存在“理论推演”和“实践验证”的本质区别。

研究团队指出，真实世界的物理问题求解依赖“感知-行动-反馈”的闭环能力。这类似于破解魔方：每一步操作都会改变全局状态，求解者必须基于新状态动态调整后续步骤。这种能力涵盖三个紧密耦合的层面：识别当前状态下物理可行的动作集合；预测每个动作将引发的状态变化；根据反馈实时调整整体行动计划。

CHAIN平台的核心突破，在于其摒弃了对“一次性输出”的考核，转而要求AI在单个任务中完成可能多达数十次的决策循环。每一次操作都会真实改变环境，AI必须重新感知、重新规划。这种设计精准模拟了人类解决实际物理问题的动态过程，也无情地暴露了AI在应对序列化、交互式任务时的能力短板。

更为关键的是，CHAIN中的所有任务都植根于真实的物理引擎模拟。物体间的碰撞、摩擦、不可穿透性等约束并非预设规则，而是自然涌现于模拟之中。这意味着AI无法通过记忆模式或答案来过关，必须内化对物理规律的理解。

直指核心弱点的物理推理挑战设计

CHAIN平台包含两大类精心构建的任务，每一类都针对AI物理推理的不同缺陷。

第一类是3D机械拼图，其设计灵感源于中国传统的鲁班锁与孔明锁。这些木质构件看似简单，却蕴含极其精密的几何互锁与操作序列依赖。以经典六柱鲁班锁为例，拆卸绝非依靠蛮力。每根木柱都与其他木柱紧密咬合，必须遵循特定的解锁序列。例如，你需要先将A柱沿特定方向滑动两厘米，以释放对B柱的约束，而B柱的移动又会为取出C柱创造空间。整个过程如同一场精密的连锁反应，容错率极低。

研究团队依据复杂度设定了三个难度层级。初级任务涉及六个部件的基础拼图；中级任务包含十几个部件的复合结构；高级任务则囊括超过三十个部件的高度复杂组装体。难度提升不仅体现在部件数量上，更在于约束关系的耦合程度。在高级任务中，单一部件的移动可能同时影响多个其他部件的自由度，形成复杂的非线性依赖。

第二类任务聚焦于3D空间装箱问题。这听似直观，实则是几何推理、空间优化与长程规划的综合考验。AI需要将一系列形状各异的3D块体装入固定容器，要求完全填满且无重叠。其核心难点在于决策的长期后果：早期放置决策会不可逆地分割剩余空间，可能严重制约后续放置选项，导致任务失败。

装箱任务同样划分为三个难度等级，通过容器尺寸、块体数量与形状复杂度进行调控。初级任务可能是一个2×2×3的小型容器搭配几个规则块体；而高级任务则可能使用3×3×4的容器并引入多种异形块体。所有任务均由程序化算法生成，确保了测试集的无限扩展性与防记忆特性。

构建标准化、可复现的基准测试环境

为确保评估结果的可靠性与可比性，团队建立了一套严格的任务构建与验证流程，每个候选任务都需通过多重质量关卡。

首先是任务筛选。团队从专业拼图社区采集初始设计，并应用三项核心筛选标准：一是因果依赖性，只保留那些操作顺序具有严格因果逻辑的拼图；二是模拟可行性，确保设计既不过于琐碎，也不至于在物理引擎中产生不稳定模拟；三是人类基准测试，邀请拼图专家进行实操，依据平均完成时间（5分钟内为初级，5-15分钟为中级，15分钟以上为高级）进行难度标定。

其次是环境标准化。原始设计千差万别，需统一转化为可控的数字环境。对于复杂的机械拼图，采用Unity引擎进行高保真物理模拟，精确刻画接触力学；对于相对简单的装箱任务，则使用轻量级Python 3D引擎以提升计算效率。所有任务均采用统一的交互接口：每个物体以独特颜色标识，AI通过指定颜色来选取并施加动作。

最后是评估协议设计，这是整个基准的创新核心。与传统单轮评估不同，CHAIN采用完全闭环的交互式评估。在每个评估周期中，AI接收当前视觉观察、任务描述及简化的操作历史，随后输出一个具体动作。系统执行该动作并更新世界状态，再将新的观察反馈给AI。此循环持续直至任务成功或达到最大步数限制。

为保障公平性，所有受测AI模型均在完全一致的条件下运行：相同的视觉输入、相同的动作空间、相同的步数预算。每个任务均有客观的成功判定标准：拼图任务要求最终状态与目标配置精确匹配；装箱任务则要求容器被完全填满且所有块体无交叠。

多维度的综合性能评估体系

CHAIN不仅关注AI“是否”能完成任务，更深入探究其“如何”完成任务。研究团队设计了一套多维度评估指标，如同评估运动员不仅要看是否夺冠，还需分析其技术效率、体能分配与战术合理性。

最基础的指标是单次尝试成功率（Pass@1），直接反映模型的首次尝试解决能力。但这仅是起点。

规划效率指标专注于分析那些成功的尝试。平均步数记录了完成任务所需的总操作次数，而最优距离则量化了模型解法与理论最优解之间的步数差距。例如，若某拼图的理论最优解为8步，而模型用了12步，则存在4步的冗余。标准化距离进一步将此差距按任务复杂度进行归一化，使得跨难度任务的结果可比。

成本效率指标则从工程部署角度进行考量。团队精确统计了AI解决每个任务所消耗的计算令牌总数，涵盖输入编码、模型推理与输出解码。通过将其转换为实际的API调用成本，得出了“解决单任务所需美元成本”的具体数据。这一指标对于评估AI解决方案的经济可行性至关重要。

一个关键发现是，这些指标间并非总是正相关。某些模型成功率尚可，但依赖大量试错与回溯，导致步数冗余与成本高昂；另一些模型成功率中等，可一旦成功则路径近乎最优。这揭示了不同AI系统在探索（exploration）与利用（exploitation）策略上的不同权衡。

主流AI模型的真实性能画像

研究团队对包括GPT-5.2、Claude Opus 4.5、Gemini 3 Pro在内的16个前沿AI模型进行了全面评测。结果揭示了显著的进步与同样显著的局限。

整体上，闭源商业模型的表现普遍优于开源模型。GPT-5.2取得了最佳综合成绩，成功率为22.9%（成功解决25个任务）。在开源模型中，Kimi-k2.5表现领先，成功率为13.8%。然而，即便是顶尖模型，其性能与人类专家相比仍有数量级差距。

更值得关注的是两类任务间的性能断层。在3D装箱任务上，顶级模型的成功率介于10.4%至31.2%之间，显示出一定的空间推理基础。但在机械拼图任务上，绝大多数模型的成功率仅在0.0%到3.1%的区间内，表现堪称失败。这清晰表明了AI在处理不同类型物理约束时存在能力鸿沟。

通过对失败案例的深入分析，团队识别出AI的几个根本性缺陷。在拼图任务中，AI的最大困难在于无法从局部观察中可靠推断出隐藏的几何约束关系。即便提供了部分内部结构信息，AI仍难以定位解锁序列中的第一步关键操作，常常陷入无方向的随机尝试，缺乏基于约束的系统性推理。

在装箱任务中，AI面临两大挑战。一是对象集合的复杂性与耦合性。简单任务可通过局部贪婪策略解决，但中高难度任务需要全局优化的紧密排布，这超出了多数模型的规划视野。二是长程空间规划能力不足。多数AI倾向于优先放置“容易处理”的块体，但这常导致剩余空间碎片化，迫使模型在后期进行高成本的移除与重规划操作。

成本分析揭示了另一个现实问题：性能更强的模型往往伴随着更高的计算开销。GPT-5.2虽然成功率最高，但解决单任务的成本高达1.3美元。相比之下，一些轻量级模型成功率较低，但成本效益更优。这种权衡在考虑大规模实际部署时至关重要。

交互式评估与传统静态评估的对比验证

为实证交互式评估的必要性，团队设计了对照实验，比较同一批AI在CHAIN交互环境与传统的单次回答模式下的表现差异。结果凸显了交互能力对于物理推理的极端重要性。

在单次回答模式下，AI仅能查看任务初始状态的单张图片，随后必须输出一个完整的解决方案序列，中途无法调整。结果，所有受测AI在拼图任务上的成功率均降至0.0%，装箱任务的成功率也出现大幅滑坡。例如，GPT-5.2的成功率从交互模式下的31.2%暴跌至9.1%，Gemini-3-Pro则从26.0%降至9.1%。

这种巨大落差说明了两个核心问题。首先，CHAIN中的任务无法通过静态的、一次性的推理可靠解决，必须依赖基于中间状态的动态调整。这证实了交互式评估确实在检验AI的闭环物理推理能力，而非简单的模式匹配。其次，即便是有限的成功，也高度依赖于在交互过程中迭代发现约束，而非从初始观察就能完全推导出完整方案。

团队还测试了多重采样及奖励模型重排序等常见优化策略的效果。值得注意的是，传统的“生成多个候选方案再选取最佳”的策略在CHAIN任务上收效甚微，Pass@2和Pass@4的指标提升几乎可以忽略。这表明问题的根源并非输出随机性，而在于AI对物理约束理解的根本性不足。

同样，基于奖励模型对候选方案进行重排序也只带来了边际改善。无论是专门训练的奖励模型，还是使用更强的视觉语言模型作为评判器，其提升效果均不及简单的多次采样。这暗示着，当前奖励信号的质量尚不足以可靠区分复杂物理任务中策略的优劣。

视频生成模型的物理推理能力极限测试

除了文本与图像模型，研究团队还将评估范围扩展至最新的视频生成模型，包括SORA 2、WAN 2.6、VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5。他们设计了一项特殊子任务：向模型展示一张完整鲁班锁的图片，要求其生成展示正确拆解过程的视频。

测试设计极为严苛。团队提供了详细的物理约束说明：所有部件均为刚性木块，不可变形；禁止部件间相互穿透；运动必须连续，禁止瞬移；每个部件在完全脱离前仅能沿许可方向滑动，不可旋转；必须遵循真实的解锁顺序；需严格匹配参考图片的几何形状与部件数量。

测试结果令人震惊：没有任何一个视频生成模型能够成功完成拆解任务。所有模型均表现出系统性的、灾难性的失败，且问题严重性随结构复杂度增加而加剧。

在简单的双木条拼图测试中，部分模型表现出对指令的表面理解，但严重违反基础物理法则。SORA 2和WAN 2.6常生成直接将目标木条平移抽出的动画，完全忽略了互锁结构使得该运动在物理上不可行。当任务复杂度升至六木条时，这些模型越来越频繁地偏离规定的逐步程序，转而生成随机或未定义的动作序列。

其他模型的问题更为严重。VEO 3.1、KLING 2.6和HUNYUANVIDEO 1.5经常出现表征崩溃，丧失对物体结构和身份的一致性追踪。在简单任务中，它们常生成几何形状扭曲、包含虚假组件的损坏配置。在复杂任务中，这种行为演变为完全的幻觉：模型可能会凭空添加、移除或合并木条，或将整个拼图转变为无法识别的结构。

这些结果表明，尽管现代视频生成模型能够产生视觉上流畅的运动或简单的物理事件转换，但它们在处理具有严格结构、依赖约束驱动的多步交互任务时仍然完全不可靠。特别是需要基于物体中心进行推理并保证物理可行性的序列操作，已远超当前模型的能力边界。

通过难度分层揭示的能力边界图谱

通过细致分析不同难度层级的任务表现，研究团队清晰地勾勒出了当前AI能力的边界轮廓。

在装箱任务中，模型性能随难度增加呈现平滑下降趋势，这表明AI具备一定程度的可扩展空间推理能力，只是在搜索空间指数级膨胀时逐渐失效。具体而言，顶级模型如GPT-5.2和Claude-Sonnet-4.5在简单任务上能达到100%的成功率，证明其完全掌握了基础的3D空间排列。在中等难度任务上，GPT-5.2保持了55.0%的成功率，而Claude-Sonnet-4.5降至20.0%，显示出不同模型在处理复杂空间关系时能力开始分化。在困难任务上，所有模型性能均急剧下滑，最佳结果也仅为6.3%。

这种渐进式下降模式表明，装箱任务的主要瓶颈在于随约束增加而爆炸性增长的解空间，以及避免后期空间碎片化所需的长视距规划能力。AI具备基础的几何推理，但缺乏复杂场景下的全局优化策略。

相比之下，拼图任务展现出截然不同的“断崖式”性能下降特征。即使在最简单级别，顶级模型的成功率也仅有10.0%，而中级和高级难度的成功率直接降至0.0%。这表明，拼图任务的主要障碍并非渐进的复杂性累积，而是对3D互锁结构和基于结构的因果推理本身存在根本性困难。

这种差异揭示了AI在不同类型物理推理任务上的能力分布：对于主要依赖空间几何关系的任务，AI展现出一定的可扩展性，尽管受限于规划深度；但对于需要推理隐藏约束和多体复杂相互作用的任务，AI则表现出更本质的理解缺陷。

研究价值与未来方向

这项研究的意义，已超越对特定AI模型的性能评测，它为理解智能系统如何与物理世界交互提供了全新的方法论视角。CHAIN平台首次系统性地揭示了当前AI在物理推理方面的真实能力边界，纠正了基于静态评估可能产生的过度乐观预期。

从技术演进角度看，研究结果指明了几个关键的改进方向：一是增强从局部观察推断全局隐藏关系的能力；二是提升长程规划与预见决策后果的能力；三是完善基于交互反馈的快速在线学习与策略调整机制。

从应用评估层面而言，这项研究为衡量AI系统在实际部署环境中的可靠性提供了重要基准。无论是工业自动化、家庭服务机器人，还是虚拟现实中的智能体，都需要具备与复杂物理环境进行序列交互的能力。CHAIN平台可在系统部署前，提供对其物理交互能力的标准化、可量化的压力测试。

研究团队也坦诚指出了当前工作的局限。由于每个高质量的机械拼图都需要大量手工建模与物理调试，目前拼图任务的数量相对有限。虽然装箱任务可以程序化无限生成，但拼图任务的扩展需要更多的工程投入。此外，由于闭环交互评估的计算成本高昂，当前评估主要基于单次尝试，未来需要更多计算资源以支持基于多次采样的更稳定评估。

展望未来，团队计划从几个方向拓展这项工作：一是增加任务多样性，引入如流体动力学、柔性体变形等更广泛的物理现象挑战；二是优化评估协议，开发更高效的交互机制以降低评估成本；三是推动与实体机器人平台的整合，将虚拟环境中的研究发现转化为指导真实世界应用的洞见。

归根结底，这项研究提醒我们，尽管AI在感知与生成领域取得了惊人进展，但在理解与操控复杂物理世界方面，仍有漫长的道路要走。真正通用的人工智能不仅需要“看”和“说”的能力，更需要在动态、不确定的物理环境中进行“思考”与“行动”的能力。CHAIN平台为实现这一目标提供了关键的测量工具与清晰的改进路标，也让我们对AI技术的现状与未来有了更清醒、更坚实的认知。

对于广大观察者而言，这项研究的启示是双重的。一方面，它帮助我们看清当前AI技术的实际边界，避免产生不切实际的能力幻想。另一方面，它也展示了严谨的科学研究如何通过构建精确的测量工具，来推动我们对智能本质的理解。无论AI如何演进，人类所独有的创造性思维、物理直觉与综合情境判断力，在可预见的未来仍将是无可替代的核心价值。

Q&A

Q1：CHAIN测试平台与传统AI评估方法有什么根本区别？

A：传统评估多让AI进行静态分析，如同开卷考试。CHAIN平台则要求AI在动态的3D物理模拟中进行闭环操作，通过多轮“感知-决策-行动”循环来解决问题，直接检验其对于物理约束与因果关系的真实理解，而非模式记忆。

Q2：为什么AI在装箱任务上比拼图任务表现更好？

A：装箱任务主要依赖空间几何推理与优化，AI在这方面有一定可扩展的基准能力。而拼图任务要求推理隐藏的几何互锁与复杂的操作序列依赖，这种对结构化物理约束的深度理解是当前AI的根本性短板，导致即使在最简单拼图上成功率也极低。

Q3：当前最强AI模型在CHAIN测试中表现如何？

A：表现最佳的GPT-5.2模型整体成功率仅为22.9%。其在拼图类任务上近乎完全失败（成功率3.1%），在装箱任务上稍好（成功率31.2%）。这明确显示，即便是最先进的AI，在需要动手操作的真实物理推理任务中，其能力仍远未达到人类水平。