浙江大学AI机器人拍照测评：角度精准对标人眼

2026-06-07阅读 0热度 0

浙江大学

浙江大学人工智能团队发布了一项最新研究成果，以预印本形式于2026年5月31日公开，论文编号为arXiv:2606.01247。先给出一个核心结论：你日常中习以为常的一件事，当前AI根本无法胜任。

设想一下——朋友发来一张照片，你也想去同一个机位拍一张。你会怎么操作？大概率是先观察照片里的家具布局、窗户位置、光线方向，然后前后走动、左右挪移、蹲下或踮脚，反复比对眼前的景象，直到画面与照片高度重合，最后按下快门。

这套流程对人类而言近乎本能，但却是目前最前沿AI系统难以跨越的障碍。浙江大学团队将此问题定义为“目标视角复现”（Target View Replication, TVR），并搭建了一套专门用于评估与训练该能力的测试体系——TvRBench。

一、目标视角复现：为何成为AI的认知盲区？

人类在“找角度”时，实际上并行处理了多项任务：实时对比当前画面与目标图像的差异，判断自身需要前移还是后退、左移还是右转、抬头还是低头，再通过肢体动作缩小视野差异，同时记忆已走过的路径避免重复循环，最终在准确位置判定“到位”。

当前AI研究在“图像描述”和“空间关系理解”上已有不少积累，比如大模型能回答“椅子在桌子的左边还是右边”。但这类任务本质上是静态的——图片已给定，AI只需看图作答，无需自主移动或主动寻找视角。

这好比让一位厨师点评菜肴，和让他独立从头烹制一道菜，难度天差地别。浙江大学团队指出，真正有价值的空间智能不是“看图说话”，而是具备主动行动、主动探索、主动调整的能力，在三维空间中精准重现指定视角。

二、TVRBench：测试平台的构建细节

为严格评估AI表现，研究团队设计了一套名为TVRBench的室内仿真测试环境。整个测试在虚拟室内场景中进行，AI扮演一台可移动且可调节视角的机器人，目标是通过自主导航，使自身第一人称画面与给定目标照片完全一致。位置坐标、朝向角、俯仰角度均需精确匹配，方算成功。

该平台覆盖两种规模场景：单房间场景源自AI2-THOR仿真平台，涵盖厨房、客厅、卧室、卫生间共120个场景；多房间场景源自ProcTHOR-10k平台，每个场景包含2至3个由实体墙分隔的房间，共120个场景。

测试任务按难度划分为四个层级：单房间简单、单房间困难、多房间简单、多房间困难。简单任务的目标照片包含至少9个可辨识物体（如沙发、灯具、桌子），作为定位与定向的“路标”；困难任务仅含3至6个物体，参考物稀少，导航难度显著增加。行走距离要求也不同：单房间任务需2至8步，多房间任务需10至20步，AI需穿越走廊甚至多个房间才能抵达目标。整个测试集共500道题，每个类别125道。

AI可执行九种动作：前后左右各移动0.25米；向左或向右旋转45度；抬头或低头30度；以及“停止”指令——宣告已到达目标位置。每次动作后，AI仅能获取当前第一人称视角的图像，无地图信息、无精确坐标、无目标点位坐标。只有AI发出“停止”且位置完全正确时，任务才算成功。

三、当前AI的表现：一份令人沮丧的成绩单

研究团队对多个顶尖AI模型进行了测试。开源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B，以及两个混合专家架构模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B；闭源商业模型包括GPT-4o、GPT-5和谷歌Gemini-3.1-Pro。同时，团队邀请了5位真人参与者完成其中100道题，作为人类基准。

结果差异显著：在500道测试题中，表现最佳的开源模型（Qwen3.5-27B）成功率仅7.8%；最优闭源模型（Gemini-3.1-Pro）也只有12%；而人类参与者的成功率高达93%。换言之，AI在该任务上的能力仅约为人类的八分之一。

值得注意的是，将模型参数量从90亿提升至270亿，成功率仅从2.8%微增至7.8%，提升幅度极为有限。即使是商业旗舰模型GPT-5，也仅达到8%的成功率。这说明单纯扩大模型规模无法解决这一核心难题。

团队总结出两种典型失败模式：第一种是“原地打转”——AI频繁左转右转却几乎不移动，任务过程中实际到达的不同位置平均仅3.5个，总行动步数却高达34.3步，其中83%的步骤是重复访问已去过的位置。第二种是“空转视角”——AI反复抬头低头，在同一地点调整头部角度却毫无进展。对所有行动进行统计，旋转类动作占比50.8%，而真正的位置平移动作仅占26.1%，“停止”指令更是仅有0.1%。

团队还设计了一项关键控制实验：若将任务简化为仅需原地转头、无需移动，同样的Qwen3.5-9B模型，成功率从2.8%跃升至80.5%；反之，若仅允许移动、禁止转头，成功率则停留在10%。这一对比清晰揭示：AI面临的真正瓶颈并非“识别两张图片的差异”，而是“识别差异后不知道如何通过移动来弥补差距”。

四、记忆策略对表现的影响

研究团队进一步测试了两种记忆方式对AI表现的作用。第一种是“仅动作记忆”——AI每一步只能获取当前画面、目标照片，以及过去几步的文字描述（如“第5步：向前，第6步：向右”）。第二种是“视觉-动作记忆”——AI可以同时看到每一步的实际画面，完整视觉历史保留在上下文中。

实验显示，对于未经训练的模型，仅动作记忆反而优于视觉-动作记忆，平均提升约3.8个百分点。这看似反直觉，但原因清晰：这些模型未经专门训练，大量历史画面会引发视觉信息过载，使其难以聚焦关键线索；而仅提供动作列表，信息虽少，却避免了干扰。这揭示了另一关键瓶颈：现有模型缺乏有效利用多轮视觉历史的能力。

五、训练能否扭转局面？——后训练框架的探索

鉴于现有AI在该任务上的糟糕表现，研究团队以Qwen3.5-9B为基座模型，设计了一套包含四种训练方法的综合框架，试图提升其能力。

1. 专家示范学习（SFT，监督微调）

团队利用一个具备“上帝视角”的规则程序，在仿真环境中自动生成1600条最优行走路径——该程序知晓完整地图与目标坐标，能够规划出最短路径。然后，将这些示范路径提供给AI进行模仿学习。这相当于教人开车时，先由教练展示标准操作，再让学员反复练习。在视觉-动作记忆条件下，该方法将Qwen3.5-9B的成功率从2.8%大幅提升至50.8%，效果显著。

2. 融合推理过程的示范学习（CoT-SFT，思维链监督微调）

在上述示范路径基础上，团队额外借助MiMo-V2.5模型为每一步动作生成一段“理由”，例如“当前画面中桌子在右侧，目标照片中桌子在正前方，所以应向右转”。理论上，带有推理过程的示范能帮助AI“知其然并知其所以然”。但结果出人意料：加入推理过程反而降低了成功率。在仅动作记忆下，成功率从44.2%降至24.8%；在视觉-动作记忆下，从50.8%降至35.6%。这表明，在当前标注方案下，文字推理监督不仅无助于AI学习连续导航任务，反而干扰了有效动作模式的习得。

3. 单步强化学习（Single-turn GRPO）

该方法不再训练完整的行走过程，而是将每一步单独拿出来训练：向AI展示当前画面和目标照片，要求其预测“这一步应该做什么”，然后根据预测与专家答案的一致性给予奖惩。单步预测准确率达到72%，但在真实连续任务测试中，成功率却从44.2%骤降至26.2%。这一反差揭示：在封闭环境中单题答对，与在连续决策中30步不犯错，是完全不同的能力。就像一个学生单独做选择题能答对70%，但正式考试中，前面一题答错就会导致后续判断连锁失误。

4. 多轮强化学习（Multi-turn GRPO）

该方法让AI在真实的仿真环境中实际移动，每走完一整条路径才进行一次总体评分。奖励信号不只关注最终是否到达目标，还包括：是否逐步接近目标、是否出现无效的原地打转、是否在错误位置提前喊停等。这好比跑马拉松时，教练全程跟踪选手表现，而非只看最终成绩。在视觉-动作记忆基础上，该方法将成功率从50.8%进一步提升至51.4%。整体提升幅度虽有限，但意义重大：多房间简单任务的成功率从27.2%提升至34.4%，多房间困难任务从24.8%提升至25.6%，恰好是此前示范学习表现最薄弱的场景。

六、训练数据的具体分配与构建细节

为使读者完整了解流程，有必要说明数据分配方式。研究团队将240个场景按1:2:3的比例分为三个互不重叠的池子：最小的用于示范学习（SFT池），其次用于最终测试（评估池），最大的用于强化学习（RL池）。这一划分确保测试中使用的场景在训练阶段从未被AI接触，真正检验的是泛化能力而非记忆。

示范学习共生成1600条轨迹。每条轨迹包含三个阶段：首先调整头部朝向，使视角方向与目标一致；接着利用Dijkstra最短路算法规划地面最短移动路线；最后发出停止指令。每条示范轨迹均为动作数量最少的最优路径。

在强化学习部分，多轮强化学习使用了4800条任务（来自120个RL场景，每个场景40条任务）。每次训练时，AI在同一任务上生成8条不同轨迹，通过比较这8条轨迹的优劣来判断哪种走法更值得强化。奖励信号由四部分叠加构成：每走一步扣除少量奖励以鼓励效率；动作格式正确给予小奖励、格式错误则扣分；只有AI靠近目标的距离超越历史最近距离时才给予进步奖励（回头走老路不计入进步）；在正确位置喊停给予高额奖励、在错误位置喊停则受惩罚。

七、人类测试的流程与标准

为建立公平的人类基准，研究团队邀请了5位志愿者，每人完成100道题，四个类别各25道。他们通过网页界面操作：左侧显示当前第一人称视角画面，右侧显示目标照片。使用键盘W/S/A/D键控制前后左右移动，Q/E键控制左右旋转，R/F键控制抬头低头，空格键宣告完成。测试的图像分辨率、动作选项、步数上限和成功判定标准与AI测试完全一致，数据可直接对比。

八、思维链（CoT）为何失效？

这一发现值得单独剖析——因为在许多其他AI任务中，让模型先“生成推理过程”再作答，往往能显著提升表现。然而在TVR任务上，效果恰恰相反。

研究团队认为，问题可能出在推理过程的标注方式上。每一步的推理文字由MiMo-V2.5模型生成，被要求为每一步专家动作提供1到3句话的理由。但这种“事后补充”的推理，与AI在连续行动中真正需要的实时空间规划能力并非同一回事。更关键的是，TVR任务每条轨迹长达30至40步，若每步都附带推理文字，整体上下文会变得极其冗长，反而干扰模型的决策。团队也坦承，是否存在更适合TVR任务的COT监督方式，目前仍是一个开放性问题。

九、为何在真实环境中训练强化学习才有效？

单步强化学习的失败，恰好反衬出多轮强化学习的价值：一个每步单独训练的模型，只学会了“在专家演示的特定状态下如何行动”，从未学习“若前面走错，后续该如何纠正”。而在真实环境中反复尝试、反复犯错、反复接收奖励信号的多轮训练，让模型有机会经历各种非最优状态，并在这些状态下学会如何恢复和前进。

从另一个角度也可印证这一点：研究团队还做了实验，直接使用未经示范学习的原始模型进行多轮强化学习，结果成功率从0%提升至26.2%——虽然远不及先示范学习再加强化学习（51.4%），但至少证明了从零开始也能摸索出可行策略。而单步强化学习从原始模型出发，最终成功率仅达3.6%。

十、这项研究的核心启示

归根结底，这项研究揭示了当前AI空间智能的一个根本短板：能够“看懂”空间，并不等同于能够“行动于”空间。现有的大模型在静态空间理解任务上已表现不俗，但一旦需要将这种理解转化为连续的身体行动，就会出现严重的能力断层。

研究团队通过TVRBench测试体系，清晰量化了这一断层。更重要的是，通过对比四种训练方法，找到了目前最有效的提升路径：基于视觉-动作历史的示范学习奠定基础（成功率从2.8%升至50.8%），再通过在真实环境中的多轮强化学习，在最薄弱的多房间场景上进一步精调（总体成功率提升至51.4%）。

当然，团队也坦诚指出了本工作的局限性：整个测试在虚拟仿真环境中进行，采用离散的位置网格和严格的精确匹配判定标准，与现实世界中模糊、连续、容错的导航场景仍有较大差距。所有后训练结论仅在Qwen3.5-9B一个模型上验证，能否推广至其他模型家族、其他规模及其他主动感知任务，还需进一步研究。

从更长远的视角看，该任务的意义远不止于“拍摄同款照片”。能够准确复现指定视角的AI，可应用于室内导航机器人、无人机航拍、虚拟现实体验、远程手术辅助等众多场景。研究团队已将TVRBench的代码、数据集和训练好的模型全部开源，供更多研究者在此基础上继续探索。

对于AI能否真正获得接近人类的主动空间行动智能，这或许只是起点。

Q&A

Q1：TVRBench测试的任务具体是什么，为何不直接用现有的图像导航测试？

A：TVRBench测试的是“目标视角复现”任务，即让AI在三维室内环境中主动移动和调整视角，直到自身画面与给定目标照片完全一致——位置坐标、朝向角、俯仰角均需精确吻合才算成功。现有图像导航任务（如ImageNav）仅要求AI到达目标区域附近，不要求最终视角与目标照片匹配，测试的能力有本质区别。TVRBench专注于视角的精确复现，而非粗略的位置接近。

Q2：为何加入推理过程（思维链）反而导致成功率下降？

A：本研究中，添加推理过程会使训练数据中每一步都附带一段文字说明，导致整条轨迹（30至40步）的上下文变得极长，模型容易被大量文字信息干扰而偏离核心的动作学习。更关键的是，这些推理文字是由另一模型“事后补充”的解释，与连续行动中真正需要的实时空间规划能力存在差距，并不能有效指导模型学习实际的导航决策。

Q3：多轮强化学习为何比单步强化学习效果好很多？

A：单步强化学习每次只训练一个孤立的动作决策，模型仅在专家示范过的场景状态下学习，从未接触“走错了该怎么办”的情况，导致在实际连续任务中一旦出现偏差就无法恢复，错误不断累积。多轮强化学习则让AI在真实环境中完整地走完整条路径，能接触到各种非最优的中间状态，并通过整条轨迹的综合奖励信号学会如何纠错和恢复，因此更适合这类需要多步决策的主动感知任务。