康奈尔研究揭秘：AI视觉模型对宜家说明书的组装焦虑

2026-06-05阅读 0热度 0

AI助手

一个值得深思的实验：让全球顶尖AI通过视频组装宜家家具，结果会如何？

这项由康奈尔大学、康奈尔科技学院、穆罕默德·本·扎耶德人工智能大学（MBZUAI）与加州大学伯克利分校联合推进的研究，于2026年5月发布在arXiv上（论文编号2605.21625），给出了一个令人失望的答案。研究团队专门构建了一套名为FLAT-PACK BENCH的评测基准，旨在检验那些在各类榜单上声名显赫的视觉语言模型，是否真正理解了视频中的动态过程，而非仅仅依赖统计规律进行猜测。

你是否经历过？查看宜家说明书时，需要在脑海中逐步规划每个步骤：哪个螺丝对应哪个孔，哪块板子先安装，两个部件何时接触。人类虽然费力，但基本能完成。而AI则完全不同。

FLAT-PACK BENCH正是聚焦于此：那些看似强大的模型，是否真正理解了视频内容，还是仅仅在“猜测”？

一、为何用家具组装测试AI

或许你会认为，给AI播放一段视频并提问，难度不大。然而，现有视频理解测试存在一个显著缺陷：大多数问题仅涉及“视频的主要内容”或“画面中是否有猫”、“人物在做什么”，这些依赖单帧图像即可回答的浅层问题。它们无法判断AI是否真正在“观看”视频，是否在追踪物体随时间的变化，是否理解物体间的互动逻辑。

家具组装恰好提供了一个理想的测试场景。原因在于：所有零件均为刚性结构，形状固定，身份唯一，排除了食物变形、液体流动等不确定性。组装过程按步骤执行，顺序明确。更重要的是，整个过程发生在杂乱的视觉环境中，零件高度相似，极易混淆。核心行为——两个零件从分离到接触——是一种具体的物理互动，AI必须真正理解才能正确作答。

研究者从IKEA-Manuals-at-Work（IMaW）数据集中选取了真实的宜家家具组装视频。然而，原始数据集的标注存在明显短板：仅标注了当前被操作的零件，忽略其他，且粒度停留在“子组件”层面，而非单个零件。为此，团队手动对50段视频中的343帧进行了精细分割标注，为每个可见零件绘制了独立轮廓。这项繁琐的工作，是构建可靠测试的基础。

二、四层关卡，逐步升级

基于高质量的视频与标注，研究团队设计了四类问题，每类针对一种特定能力。

第一类：“零件配对”（MATE）。询问：视频中，某个零件最终会直接连接到哪个零件？考察AI对整体装配结构的理解，能否判断哪些零件会真正接触并固定。

第二类：“时间定位”（TLOC）。展示一张当前组装状态的图片，提问：下一步要安装哪个零件？或刚完成的是哪个？AI需要同时理解图片内容与视频时间线，判断“刚发生”或“即将发生”的事件。

第三类：“时间排序”（TORD）。给出一组零件，要求按视频中的安装顺序排列。这要求AI全程追踪多个零件的状态变化，记忆每个连接事件的时间点，并输出正确顺序。

第四类：“跨帧追踪”（TRACK），难度最高。提供两张来自同一视频但不同时刻的图片，图中零件均被标注，但编号错乱——例如，图A中的“4号”零件在图B中可能变为“2号”。AI需通过分析视频，判断图A中某个零件对应图B中的哪一个。这考验的是跨时间的追踪能力。

为避免语言歧义，研究者采用“视觉提示”指代零件。每道题除视频外，附上一张或两张参考图片，零件以彩色遮罩覆盖并标注数字编号。问题中直接引用编号，而非“左腿”或“顶部横梁”等易混淆的描述。这既消除了语言歧义，也防止AI依赖常识作答。

所有题目均经人工严格筛选。自动化生成容易产生“不看视频也能猜对”的题目，例如图片中两个零件已明显相邻，或干扰选项与正确答案差异显著。注释员需逐一检查，剔除所有“捷径”。最终，测试集包含50段视频、602道多项选择题，覆盖24种宜家家具，平均每段视频涉及7个零件。

三、成绩单：人类94分，AI不足40

研究团队测试了数十款代表性AI模型，包括商业闭源模型（GPT-5、Gemini系列）与开源模型（Qwen系列、InternVL系列、LLaVA系列等），以及针对特定能力优化的模型。

先看人类的表现：参与测试的计算机专业学生（本科至博士），四类问题的准确率均超过90%，综合平均高达94.18%，其中80%的题目全部答对。这证明题目设置清晰，无歧义。

再看AI：结果惨淡。OpenAI的GPT-5综合准确率仅37.71%，谷歌的Gemini 2.5 Pro为33.72%，Gemini 3.1 Pro为32.89%。若纯随机猜测，准确率约为26%。这意味着顶级商业模型仅比随机好约10个百分点，与人类94%的水平相差56个点。

开源模型中，InternVL3-78B以41.03%位居第一，Qwen2.5-VL-72B以40.37%紧随其后，甚至略微超越GPT-5。这显示在细粒度视觉理解任务上，开源模型已具备与闭源模型竞争的能力。但即便最佳开源模型，与人类的差距仍极为显著。

专门针对区域理解或时间敏感性训练的模型，如PerceptionLM和VideoRefer，表现同样不佳。PerceptionLM的训练数据主要来自场景简单、互动清晰的视频，面对多零件、高相似度、密集交互的家具组装场景，难以应对。ArrowRL在时间排序任务上略优于其基础版Qwen2.5-VL-7B，表明专项训练有一定效果，但提升有限。

四、AI的短板：核心问题在哪

研究团队并未止步于公布数字，而是深入分析了失败根源。

第一个发现令人警觉：AI并未充分利用视频信息。他们进行对比实验，移除视频输入，仅给AI看参考图片。结果发现，“跨帧追踪”任务的准确率确实大幅下降（降约24个百分点），但在“零件配对”和“时间定位”任务上，移除视频后准确率反而略有提升。

这表明，视频在许多情况下成为AI的干扰，而非帮助。AI更倾向于依赖图片的静态特征和内置常识进行判断——例如“这两个零件的形状与位置似乎要连接”——而非真正追踪视频中的动态过程。反之，人类在移除视频后，准确率从94%骤降至43%，说明人类完全依赖视频信息作答，而AI则不是。

第二个发现是“零件编号偏见”。在时间排序任务中，出现了一个反常现象：移除视频后，准确率几乎不变。按常理，移除视频应使排序变得更困难。研究者怀疑，问题中的零件编号顺序可能泄露了答案——例如“先装0号，再装2号，再装3号”与编号从小到大的直观顺序一致。他们重新打乱编号后，准确率确实下降。这证实AI在利用编号顺序“猜测”答案，而非理解组装流程。

第三个发现来自对AI自我解释的分析。研究者要求Gemini 2.5 Pro在回答时输出推理过程，并人工分析这些记录，找出错误原因。在200道答错的题中，归纳出五类错误：第一类是“物体定位错误”，占37.28%——AI未能正确识别图片与视频中同一零件的对应关系；第二类是“时空推理错误”，占32.45%——AI在追踪零件时被镜头切换、视角旋转、场景变化干扰，混淆了零件身份；第三类是“时间推理错误”，占17.98%——AI颠倒了多个连接事件的先后顺序；第四类是“物理交互错误”，占7.89%——AI无法判断两个零件是否真正接触；第五类是“语言与逻辑错误”，占4.38%——AI误解题目或从正确观察中得出错误结论。

前两类错误合计近70%。这表明AI的核心短板在于：在杂乱的视觉场景中跨时间追踪并识别特定零件——对人类而言轻而易举，对AI却极为困难。

五、链式思考失效，分工策略亦不奏效

研究者尝试了多种常见的“增强策略”，结果同样不乐观。

一是“链式思考提示”，即要求AI在给出答案前逐步推理。该方法在纯语言推理任务（如数学题）上常能显著提升准确率。然而在本次测试中，加入链式思考后准确率反而下降。即便采用“自我一致性”方法——生成5个回答后投票选出最终答案——准确率也未见改善，甚至进一步下滑。这说明语言层面的推理策略，无法弥补AI在视觉时空理解上的根本缺陷。

二是视觉提示的呈现方式。研究者测试了三种输入格式：“混合媒体”将参考图片作为独立图片与视频分开提供；“拼贴”将参考图片拼贴到每一帧左侧；“拼接”将参考图片插入视频开头几帧。结果发现，对于Qwen2.5-VL-72B，混合媒体格式效果最佳，可能因其训练数据包含大量图文混合样本；对于InternVL3-78B，拼接格式效果最佳，因其训练数据以纯图片序列与视频为主。此外，视频是否经过剪辑（如仅保留关键帧）对准确率影响不大。在标注细节上，高对比颜色与更大字体帮助有限，但彩色遮罩、轮廓边框与数字标签三者同时保留时，效果明显优于仅保留一两项。

六、分治策略：让专业工具上阵，结果更糟

研究者还提出一个巧妙的思路：既然直接理解视频困难，是否可将任务拆解，利用专业工具分别处理追踪与接触判断，再整合结果？

他们构建了一个名为“时间视频智能体”（TVA）的系统。该系统像一个“侦探”配备两位“专家助手”：助手一是Meta的SAM2，负责在视频中追踪零件位置；助手二是Qwen2.5-VL-32B，负责回答“这两个零件是否接触”等问题。侦探的核心是Gemini 2.5 Pro，它接收问题后生成Python程序调用两位助手，最终整合答案。

结果如何？该系统的综合准确率仅11.79%，且高达62.29%的题目选择放弃作答（选“不确定”）。问题根源在于两位“专家助手”自身能力不足。在追踪方面，SAM2被要求从一帧出发追踪多个零件到另一帧，结果其追踪区域与真实标注的重叠度（IoU）平均仅0.28，即七成以上错误。家具零件在组装过程中频繁旋转、相互遮挡、被手部遮挡，SAM2完全无法应对。至于接触判断，研究者用1500道二选一问题测试了Qwen2.5-VL-32B——其中750道为“两个零件最终接触”，750道为“未接触”。模型总体准确率64.33%，但判断“确实接触”的正例准确率仅52.93%，与随机猜测无异。这表明AI对“物理接触”这一概念的视觉理解极其薄弱——即便两个零件已连接，AI也难以确认。

这些发现指向同一结论：问题不仅在于AI的“高层推理”，更深入视觉感知的底层。即便是最专业的追踪模型与视觉问答模型，在面对杂乱、动态的真实场景时，也存在根本性的能力短板。

七、一些思考

以家具组装测试AI，正是这项研究最具巧思之处。它将一个日常场景转化为“照妖镜”，精准揭示了当前AI视觉理解的短板：在真实杂乱的视频中，AI既无法识别哪个零件是哪个，又记不住先后顺序，更看不出哪些零件发生了接触。而这些，正是人类初看视频便能轻松完成的任务。

对普通读者而言，这项研究的意义在于：下次看到某款AI被宣传为“理解视频”时，不妨保持警惕。其所谓的“理解”，很可能仅限于“视频主要内容”，而非真正追踪每一个细节在时间轴上的演变。当你要求AI从一段操作视频中找出“第三步之后哪个零件被装上”时，当前的AI恐怕会令你失望。

当然，研究者并未止步于悲观。他们指出，未来方向包括：利用合成3D仿真数据进行针对性精调，开发更优的视觉区域理解提示技术，以及构建能利用3D几何与深度信息的复杂多智能体系统。这些方向并非遥不可及，只是需要时间。

论文全文见arXiv，编号arXiv:2605.21625，感兴趣的读者可自行查阅实验细节与数据结果。

Q&A

Q1：FLAT-PACK BENCH与现有视频理解测试的最大区别是什么？

A：FLAT-PACK BENCH聚焦“细粒度时空理解”——要求AI真正追踪视频中每个零件随时间的变化，判断它们何时发生物理接触，恢复跨帧的对应关系。现有测试大多仅问“视频内容”或识别简单动作，不要求AI追踪多个视觉相似物体在复杂场景中的时间演变，因此难度与考察维度完全不同。

Q2：为什么GPT-5等顶级模型在家具组装视频问答上表现如此糟糕？

A：主要有三层原因。首先，家具零件外形高度相似，在杂乱场景中难以区分。其次，AI并未实际利用视频的时间信息，更多依赖单帧图片的静态判断与常识推测。最后，AI对“两个零件是否物理接触”这种具体空间互动判断能力极弱，即使是专门模型也仅比随机猜测稍好。

Q3：FLAT-PACK BENCH中的“视觉提示”是什么？为何用它而非文字描述零件？

A：视觉提示是从视频中抽取的参考图片，每个零件以彩色遮罩覆盖并标注数字编号。用文字描述零件（如“左边的腿”）在对称结构中易产生歧义，且可能让AI依赖家具常识作答，而非基于视频。视觉提示直接标注图像，既消除语言歧义，也迫使AI必须结合视觉信息回答问题。