康奈尔研究揭秘:AI视觉模型对宜家说明书的组装焦虑
一个值得深思的实验:让全球顶尖AI通过视频组装宜家家具,结果会如何?
这项由康奈尔大学、康奈尔科技学院、穆罕默德·本·扎耶德人工智能大学(MBZUAI)与加州大学伯克利分校联合推进的研究,于2026年5月发布在arXiv上(论文编号2605.21625),给出了一个令人失望的答案。研究团队专门构建了一套名为FLAT-PACK BENCH的评测基准,旨在检验那些在各类榜单上声名显赫的视觉语言模型,是否真正理解了视频中的动态过程,而非仅仅依赖统计规律进行猜测。
你是否经历过?查看宜家说明书时,需要在脑海中逐步规划每个步骤:哪个螺丝对应哪个孔,哪块板子先安装,两个部件何时接触。人类虽然费力,但基本能完成。而AI则完全不同。
FLAT-PACK BENCH正是聚焦于此:那些看似强大的模型,是否真正理解了视频内容,还是仅仅在“猜测”?
一、为何用家具组装测试AI
或许你会认为,给AI播放一段视频并提问,难度不大。然而,现有视频理解测试存在一个显著缺陷:大多数问题仅涉及“视频的主要内容”或“画面中是否有猫”、“人物在做什么”,这些依赖单帧图像即可回答的浅层问题。它们无法判断AI是否真正在“观看”视频,是否在追踪物体随时间的变化,是否理解物体间的互动逻辑。
家具组装恰好提供了一个理想的测试场景。原因在于:所有零件均为刚性结构,形状固定,身份唯一,排除了食物变形、液体流动等不确定性。组装过程按步骤执行,顺序明确。更重要的是,整个过程发生在杂乱的视觉环境中,零件高度相似,极易混淆。核心行为——两个零件从分离到接触——是一种具体的物理互动,AI必须真正理解才能正确作答。
研究者从IKEA-Manuals-at-Work(IMaW)数据集中选取了真实的宜家家具组装视频。然而,原始数据集的标注存在明显短板:仅标注了当前被操作的零件,忽略其他,且粒度停留在“子组件”层面,而非单个零件。为此,团队手动对50段视频中的343帧进行了精细分割标注,为每个可见零件绘制了独立轮廓。这项繁琐的工作,是构建可靠测试的基础。
二、四层关卡,逐步升级
基于高质量的视频与标注,研究团队设计了四类问题,每类针对一种特定能力。
第一类:“零件配对”(MATE)。询问:视频中,某个零件最终会直接连接到哪个零件?考察AI对整体装配结构的理解,能否判断哪些零件会真正接触并固定。
第二类:“时间定位”(TLOC)。展示一张当前组装状态的图片,提问:下一步要安装哪个零件?或刚完成的是哪个?AI需要同时理解图片内容与视频时间线,判断“刚发生”或“即将发生”的事件。
第三类:“时间排序”(TORD)。给出一组零件,要求按视频中的安装顺序排列。这要求AI全程追踪多个零件的状态变化,记忆每个连接事件的时间点,并输出正确顺序。
第四类:“跨帧追踪”(TRACK),难度最高。提供两张来自同一视频但不同时刻的图片,图中零件均被标注,但编号错乱——例如,图A中的“4号”零件在图B中可能变为“2号”。AI需通过分析视频,判断图A中某个零件对应图B中的哪一个。这考验的是跨时间的追踪能力。
为避免语言歧义,研究者采用“视觉提示”指代零件。每道题除视频外,附上一张或两张参考图片,零件以彩色遮罩覆盖并标注数字编号。问题中直接引用编号,而非“左腿”或“顶部横梁”等易混淆的描述。这既消除了语言歧义,也防止AI依赖常识作答。
所有题目均经人工严格筛选。自动化生成容易产生“不看视频也能猜对”的题目,例如图片中两个零件已明显相邻,或干扰选项与正确答案差异显著。注释员需逐一检查,剔除所有“捷径”。最终,测试集包含50段视频、602道多项选择题,覆盖24种宜家家具,平均每段视频涉及7个零件。
三、成绩单:人类94分,AI不足40
研究团队测试了数十款代表性AI模型,包括商业闭源模型(GPT-5、Gemini系列)与开源模型(Qwen系列、InternVL系列、LLaVA系列等),以及针对特定能力优化的模型。
先看人类的表现:参与测试的计算机专业学生(本科至博士),四类问题的准确率均超过90%,综合平均高达94.18%,其中80%的题目全部答对。这证明题目设置清晰,无歧义。
再看AI:结果惨淡。OpenAI的GPT-5综合准确率仅37.71%,谷歌的Gemini 2.5 Pro为33.72%,Gemini 3.1 Pro为32.89%。若纯随机猜测,准确率约为26%。这意味着顶级商业模型仅比随机好约10个百分点,与人类94%的水平相差56个点。
开源模型中,InternVL3-78B以41.03%位居第一,Qwen2.5-VL-72B以40.37%紧随其后,甚至略微超越GPT-5。这显示在细粒度视觉理解任务上,开源模型已具备与闭源模型竞争的能力。但即便最佳开源模型,与人类的差距仍极为显著。
专门针对区域理解或时间敏感性训练的模型,如PerceptionLM和VideoRefer,表现同样不佳。PerceptionLM的训练数据主要来自场景简单、互动清晰的视频,面对多零件、高相似度、密集交互的家具组装场景,难以应对。ArrowRL在时间排序任务上略优于其基础版Qwen2.5-VL-7B,表明专项训练有一定效果,但提升有限。
四、AI的短板:核心问题在哪
研究团队并未止步于公布数字,而是深入分析了失败根源。
第一个发现令人警觉:AI并未充分利用视频信息。他们进行对比实验,移除视频输入,仅给AI看参考图片。结果发现,“跨帧追踪”任务的准确率确实大幅下降(降约24个百分点),但在“零件配对”和“时间定位”任务上,移除视频后准确率反而略有提升。
这表明,视频在许多情况下成为AI的干扰,而非帮助。AI更倾向于依赖图片的静态特征和内置常识进行判断——例如“这两个零件的形状与位置似乎要连接”——而非真正追踪视频中的动态过程。反之,人类在移除视频后,准确率从94%骤降至43%,说明人类完全依赖视频信息作答,而AI则不是。
第二个发现是“零件编号偏见”。在时间排序任务中,出现了一个反常现象:移除视频后,准确率几乎不变。按常理,移除视频应使排序变得更困难。研究者怀疑,问题中的零件编号顺序可能泄露了答案——例如“先装0号,再装2号,再装3号”与编号从小到大的直观顺序一致。他们重新打乱编号后,准确率确实下降。这证实AI在利用编号顺序“猜测”答案,而非理解组装流程。
第三个发现来自对AI自我解释的分析。研究者要求Gemini 2.5 Pro在回答时输出推理过程,并人工分析这些记录,找出错误原因。在200道答错的题中,归纳出五类错误:第一类是“物体定位错误”,占37.28%——AI未能正确识别图片与视频中同一零件的对应关系;第二类是“时空推理错误”,占32.45%——AI在追踪零件时被镜头切换、视角旋转、场景变化干扰,混淆了零件身份;第三类是“时间推理错误”,占17.98%——AI颠倒了多个连接事件的先后顺序;第四类是“物理交互错误”,占7.89%——AI无法判断两个零件是否真正接触;第五类是“语言与逻辑错误”,占4.38%——AI误解题目或从正确观察中得出错误结论。
前两类错误合计近70%。这表明AI的核心短板在于:在杂乱的视觉场景中跨时间追踪并识别特定零件——对人类而言轻而易举,对AI却极为困难。
五、链式思考失效,分工策略亦不奏效
研究者尝试了多种常见的“增强策略”,结果同样不乐观。
一是“链式思考提示”,即要求AI在给出答案前逐步推理。该方法在纯语言推理任务(如数学题)上常能显著提升准确率。然而在本次测试中,加入链式思考后准确率反而下降。即便采用“自我一致性”方法——生成5个回答后投票选出最终答案——准确率也未见改善,甚至进一步下滑。这说明语言层面的推理策略,无法弥补AI在视觉时空理解上的根本缺陷。
二是视觉提示的呈现方式。研究者测试了三种输入格式:“混合媒体”将参考图片作为独立图片与视频分开提供;“拼贴”将参考图片拼贴到每一帧左侧;“拼接”将参考图片插入视频开头几帧。结果发现,对于Qwen2.5-VL-72B,混合媒体格式效果最佳,可能因其训练数据包含大量图文混合样本;对于InternVL3-78B,拼接格式效果最佳,因其训练数据以纯图片序列与视频为主。此外,视频是否经过剪辑(如仅保留关键帧)对准确率影响不大。在标注细节上,高对比颜色与更大字体帮助有限,但彩色遮罩、轮廓边框与数字标签三者同时保留时,效果明显优于仅保留一两项。
六、分治策略:让专业工具上阵,结果更糟
研究者还提出一个巧妙的思路:既然直接理解视频困难,是否可将任务拆解,利用专业工具分别处理追踪与接触判断,再整合结果?
他们构建了一个名为“时间视频智能体”(TVA)的系统。该系统像一个“侦探”配备两位“专家助手”:助手一是Meta的SAM2,负责在视频中追踪零件位置;助手二是Qwen2.5-VL-32B,负责回答“这两个零件是否接触”等问题。侦探的核心是Gemini 2.5 Pro,它接收问题后生成Python程序调用两位助手,最终整合答案。
结果如何?该系统的综合准确率仅11.79%,且高达62.29%的题目选择放弃作答(选“不确定”)。问题根源在于两位“专家助手”自身能力不足。在追踪方面,SAM2被要求从一帧出发追踪多个零件到另一帧,结果其追踪区域与真实标注的重叠度(IoU)平均仅0.28,即七成以上错误。家具零件在组装过程中频繁旋转、相互遮挡、被手部遮挡,SAM2完全无法应对。至于接触判断,研究者用1500道二选一问题测试了Qwen2.5-VL-32B——其中750道为“两个零件最终接触”,750道为“未接触”。模型总体准确率64.33%,但判断“确实接触”的正例准确率仅52.93%,与随机猜测无异。这表明AI对“物理接触”这一概念的视觉理解极其薄弱——即便两个零件已连接,AI也难以确认。
这些发现指向同一结论:问题不仅在于AI的“高层推理”,更深入视觉感知的底层。即便是最专业的追踪模型与视觉问答模型,在面对杂乱、动态的真实场景时,也存在根本性的能力短板。
七、一些思考
以家具组装测试AI,正是这项研究最具巧思之处。它将一个日常场景转化为“照妖镜”,精准揭示了当前AI视觉理解的短板:在真实杂乱的视频中,AI既无法识别哪个零件是哪个,又记不住先后顺序,更看不出哪些零件发生了接触。而这些,正是人类初看视频便能轻松完成的任务。
对普通读者而言,这项研究的意义在于:下次看到某款AI被宣传为“理解视频”时,不妨保持警惕。其所谓的“理解”,很可能仅限于“视频主要内容”,而非真正追踪每一个细节在时间轴上的演变。当你要求AI从一段操作视频中找出“第三步之后哪个零件被装上”时,当前的AI恐怕会令你失望。
当然,研究者并未止步于悲观。他们指出,未来方向包括:利用合成3D仿真数据进行针对性精调,开发更优的视觉区域理解提示技术,以及构建能利用3D几何与深度信息的复杂多智能体系统。这些方向并非遥不可及,只是需要时间。
论文全文见arXiv,编号arXiv:2605.21625,感兴趣的读者可自行查阅实验细节与数据结果。
Q&A
Q1:FLAT-PACK BENCH与现有视频理解测试的最大区别是什么?
A:FLAT-PACK BENCH聚焦“细粒度时空理解”——要求AI真正追踪视频中每个零件随时间的变化,判断它们何时发生物理接触,恢复跨帧的对应关系。现有测试大多仅问“视频内容”或识别简单动作,不要求AI追踪多个视觉相似物体在复杂场景中的时间演变,因此难度与考察维度完全不同。
Q2:为什么GPT-5等顶级模型在家具组装视频问答上表现如此糟糕?
A:主要有三层原因。首先,家具零件外形高度相似,在杂乱场景中难以区分。其次,AI并未实际利用视频的时间信息,更多依赖单帧图片的静态判断与常识推测。最后,AI对“两个零件是否物理接触”这种具体空间互动判断能力极弱,即使是专门模型也仅比随机猜测稍好。
Q3:FLAT-PACK BENCH中的“视觉提示”是什么?为何用它而非文字描述零件?
A:视觉提示是从视频中抽取的参考图片,每个零件以彩色遮罩覆盖并标注数字编号。用文字描述零件(如“左边的腿”)在对称结构中易产生歧义,且可能让AI依赖家具常识作答,而非基于视频。视觉提示直接标注图像,既消除语言歧义,也迫使AI必须结合视觉信息回答问题。
