浙江大学AI机器人拍照测评:角度精准对标人眼
浙江大学人工智能团队发布了一项最新研究成果,以预印本形式于2026年5月31日公开,论文编号为arXiv:2606.01247。先给出一个核心结论:你日常中习以为常的一件事,当前AI根本无法胜任。
设想一下——朋友发来一张照片,你也想去同一个机位拍一张。你会怎么操作?大概率是先观察照片里的家具布局、窗户位置、光线方向,然后前后走动、左右挪移、蹲下或踮脚,反复比对眼前的景象,直到画面与照片高度重合,最后按下快门。
这套流程对人类而言近乎本能,但却是目前最前沿AI系统难以跨越的障碍。浙江大学团队将此问题定义为“目标视角复现”(Target View Replication, TVR),并搭建了一套专门用于评估与训练该能力的测试体系——TvRBench。
一、目标视角复现:为何成为AI的认知盲区?
人类在“找角度”时,实际上并行处理了多项任务:实时对比当前画面与目标图像的差异,判断自身需要前移还是后退、左移还是右转、抬头还是低头,再通过肢体动作缩小视野差异,同时记忆已走过的路径避免重复循环,最终在准确位置判定“到位”。
当前AI研究在“图像描述”和“空间关系理解”上已有不少积累,比如大模型能回答“椅子在桌子的左边还是右边”。但这类任务本质上是静态的——图片已给定,AI只需看图作答,无需自主移动或主动寻找视角。
这好比让一位厨师点评菜肴,和让他独立从头烹制一道菜,难度天差地别。浙江大学团队指出,真正有价值的空间智能不是“看图说话”,而是具备主动行动、主动探索、主动调整的能力,在三维空间中精准重现指定视角。
二、TVRBench:测试平台的构建细节
为严格评估AI表现,研究团队设计了一套名为TVRBench的室内仿真测试环境。整个测试在虚拟室内场景中进行,AI扮演一台可移动且可调节视角的机器人,目标是通过自主导航,使自身第一人称画面与给定目标照片完全一致。位置坐标、朝向角、俯仰角度均需精确匹配,方算成功。
该平台覆盖两种规模场景:单房间场景源自AI2-THOR仿真平台,涵盖厨房、客厅、卧室、卫生间共120个场景;多房间场景源自ProcTHOR-10k平台,每个场景包含2至3个由实体墙分隔的房间,共120个场景。
测试任务按难度划分为四个层级:单房间简单、单房间困难、多房间简单、多房间困难。简单任务的目标照片包含至少9个可辨识物体(如沙发、灯具、桌子),作为定位与定向的“路标”;困难任务仅含3至6个物体,参考物稀少,导航难度显著增加。行走距离要求也不同:单房间任务需2至8步,多房间任务需10至20步,AI需穿越走廊甚至多个房间才能抵达目标。整个测试集共500道题,每个类别125道。
AI可执行九种动作:前后左右各移动0.25米;向左或向右旋转45度;抬头或低头30度;以及“停止”指令——宣告已到达目标位置。每次动作后,AI仅能获取当前第一人称视角的图像,无地图信息、无精确坐标、无目标点位坐标。只有AI发出“停止”且位置完全正确时,任务才算成功。
三、当前AI的表现:一份令人沮丧的成绩单
研究团队对多个顶尖AI模型进行了测试。开源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B,以及两个混合专家架构模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B;闭源商业模型包括GPT-4o、GPT-5和谷歌Gemini-3.1-Pro。同时,团队邀请了5位真人参与者完成其中100道题,作为人类基准。
结果差异显著:在500道测试题中,表现最佳的开源模型(Qwen3.5-27B)成功率仅7.8%;最优闭源模型(Gemini-3.1-Pro)也只有12%;而人类参与者的成功率高达93%。换言之,AI在该任务上的能力仅约为人类的八分之一。
值得注意的是,将模型参数量从90亿提升至270亿,成功率仅从2.8%微增至7.8%,提升幅度极为有限。即使是商业旗舰模型GPT-5,也仅达到8%的成功率。这说明单纯扩大模型规模无法解决这一核心难题。
团队总结出两种典型失败模式:第一种是“原地打转”——AI频繁左转右转却几乎不移动,任务过程中实际到达的不同位置平均仅3.5个,总行动步数却高达34.3步,其中83%的步骤是重复访问已去过的位置。第二种是“空转视角”——AI反复抬头低头,在同一地点调整头部角度却毫无进展。对所有行动进行统计,旋转类动作占比50.8%,而真正的位置平移动作仅占26.1%,“停止”指令更是仅有0.1%。
团队还设计了一项关键控制实验:若将任务简化为仅需原地转头、无需移动,同样的Qwen3.5-9B模型,成功率从2.8%跃升至80.5%;反之,若仅允许移动、禁止转头,成功率则停留在10%。这一对比清晰揭示:AI面临的真正瓶颈并非“识别两张图片的差异”,而是“识别差异后不知道如何通过移动来弥补差距”。
四、记忆策略对表现的影响
研究团队进一步测试了两种记忆方式对AI表现的作用。第一种是“仅动作记忆”——AI每一步只能获取当前画面、目标照片,以及过去几步的文字描述(如“第5步:向前,第6步:向右”)。第二种是“视觉-动作记忆”——AI可以同时看到每一步的实际画面,完整视觉历史保留在上下文中。
实验显示,对于未经训练的模型,仅动作记忆反而优于视觉-动作记忆,平均提升约3.8个百分点。这看似反直觉,但原因清晰:这些模型未经专门训练,大量历史画面会引发视觉信息过载,使其难以聚焦关键线索;而仅提供动作列表,信息虽少,却避免了干扰。这揭示了另一关键瓶颈:现有模型缺乏有效利用多轮视觉历史的能力。
五、训练能否扭转局面?——后训练框架的探索
鉴于现有AI在该任务上的糟糕表现,研究团队以Qwen3.5-9B为基座模型,设计了一套包含四种训练方法的综合框架,试图提升其能力。
1. 专家示范学习(SFT,监督微调)
团队利用一个具备“上帝视角”的规则程序,在仿真环境中自动生成1600条最优行走路径——该程序知晓完整地图与目标坐标,能够规划出最短路径。然后,将这些示范路径提供给AI进行模仿学习。这相当于教人开车时,先由教练展示标准操作,再让学员反复练习。在视觉-动作记忆条件下,该方法将Qwen3.5-9B的成功率从2.8%大幅提升至50.8%,效果显著。
2. 融合推理过程的示范学习(CoT-SFT,思维链监督微调)
在上述示范路径基础上,团队额外借助MiMo-V2.5模型为每一步动作生成一段“理由”,例如“当前画面中桌子在右侧,目标照片中桌子在正前方,所以应向右转”。理论上,带有推理过程的示范能帮助AI“知其然并知其所以然”。但结果出人意料:加入推理过程反而降低了成功率。在仅动作记忆下,成功率从44.2%降至24.8%;在视觉-动作记忆下,从50.8%降至35.6%。这表明,在当前标注方案下,文字推理监督不仅无助于AI学习连续导航任务,反而干扰了有效动作模式的习得。
3. 单步强化学习(Single-turn GRPO)
该方法不再训练完整的行走过程,而是将每一步单独拿出来训练:向AI展示当前画面和目标照片,要求其预测“这一步应该做什么”,然后根据预测与专家答案的一致性给予奖惩。单步预测准确率达到72%,但在真实连续任务测试中,成功率却从44.2%骤降至26.2%。这一反差揭示:在封闭环境中单题答对,与在连续决策中30步不犯错,是完全不同的能力。就像一个学生单独做选择题能答对70%,但正式考试中,前面一题答错就会导致后续判断连锁失误。
4. 多轮强化学习(Multi-turn GRPO)
该方法让AI在真实的仿真环境中实际移动,每走完一整条路径才进行一次总体评分。奖励信号不只关注最终是否到达目标,还包括:是否逐步接近目标、是否出现无效的原地打转、是否在错误位置提前喊停等。这好比跑马拉松时,教练全程跟踪选手表现,而非只看最终成绩。在视觉-动作记忆基础上,该方法将成功率从50.8%进一步提升至51.4%。整体提升幅度虽有限,但意义重大:多房间简单任务的成功率从27.2%提升至34.4%,多房间困难任务从24.8%提升至25.6%,恰好是此前示范学习表现最薄弱的场景。
六、训练数据的具体分配与构建细节
为使读者完整了解流程,有必要说明数据分配方式。研究团队将240个场景按1:2:3的比例分为三个互不重叠的池子:最小的用于示范学习(SFT池),其次用于最终测试(评估池),最大的用于强化学习(RL池)。这一划分确保测试中使用的场景在训练阶段从未被AI接触,真正检验的是泛化能力而非记忆。
示范学习共生成1600条轨迹。每条轨迹包含三个阶段:首先调整头部朝向,使视角方向与目标一致;接着利用Dijkstra最短路算法规划地面最短移动路线;最后发出停止指令。每条示范轨迹均为动作数量最少的最优路径。
在强化学习部分,多轮强化学习使用了4800条任务(来自120个RL场景,每个场景40条任务)。每次训练时,AI在同一任务上生成8条不同轨迹,通过比较这8条轨迹的优劣来判断哪种走法更值得强化。奖励信号由四部分叠加构成:每走一步扣除少量奖励以鼓励效率;动作格式正确给予小奖励、格式错误则扣分;只有AI靠近目标的距离超越历史最近距离时才给予进步奖励(回头走老路不计入进步);在正确位置喊停给予高额奖励、在错误位置喊停则受惩罚。
七、人类测试的流程与标准
为建立公平的人类基准,研究团队邀请了5位志愿者,每人完成100道题,四个类别各25道。他们通过网页界面操作:左侧显示当前第一人称视角画面,右侧显示目标照片。使用键盘W/S/A/D键控制前后左右移动,Q/E键控制左右旋转,R/F键控制抬头低头,空格键宣告完成。测试的图像分辨率、动作选项、步数上限和成功判定标准与AI测试完全一致,数据可直接对比。
八、思维链(CoT)为何失效?
这一发现值得单独剖析——因为在许多其他AI任务中,让模型先“生成推理过程”再作答,往往能显著提升表现。然而在TVR任务上,效果恰恰相反。
研究团队认为,问题可能出在推理过程的标注方式上。每一步的推理文字由MiMo-V2.5模型生成,被要求为每一步专家动作提供1到3句话的理由。但这种“事后补充”的推理,与AI在连续行动中真正需要的实时空间规划能力并非同一回事。更关键的是,TVR任务每条轨迹长达30至40步,若每步都附带推理文字,整体上下文会变得极其冗长,反而干扰模型的决策。团队也坦承,是否存在更适合TVR任务的COT监督方式,目前仍是一个开放性问题。
九、为何在真实环境中训练强化学习才有效?
单步强化学习的失败,恰好反衬出多轮强化学习的价值:一个每步单独训练的模型,只学会了“在专家演示的特定状态下如何行动”,从未学习“若前面走错,后续该如何纠正”。而在真实环境中反复尝试、反复犯错、反复接收奖励信号的多轮训练,让模型有机会经历各种非最优状态,并在这些状态下学会如何恢复和前进。
从另一个角度也可印证这一点:研究团队还做了实验,直接使用未经示范学习的原始模型进行多轮强化学习,结果成功率从0%提升至26.2%——虽然远不及先示范学习再加强化学习(51.4%),但至少证明了从零开始也能摸索出可行策略。而单步强化学习从原始模型出发,最终成功率仅达3.6%。
十、这项研究的核心启示
归根结底,这项研究揭示了当前AI空间智能的一个根本短板:能够“看懂”空间,并不等同于能够“行动于”空间。现有的大模型在静态空间理解任务上已表现不俗,但一旦需要将这种理解转化为连续的身体行动,就会出现严重的能力断层。
研究团队通过TVRBench测试体系,清晰量化了这一断层。更重要的是,通过对比四种训练方法,找到了目前最有效的提升路径:基于视觉-动作历史的示范学习奠定基础(成功率从2.8%升至50.8%),再通过在真实环境中的多轮强化学习,在最薄弱的多房间场景上进一步精调(总体成功率提升至51.4%)。
当然,团队也坦诚指出了本工作的局限性:整个测试在虚拟仿真环境中进行,采用离散的位置网格和严格的精确匹配判定标准,与现实世界中模糊、连续、容错的导航场景仍有较大差距。所有后训练结论仅在Qwen3.5-9B一个模型上验证,能否推广至其他模型家族、其他规模及其他主动感知任务,还需进一步研究。
从更长远的视角看,该任务的意义远不止于“拍摄同款照片”。能够准确复现指定视角的AI,可应用于室内导航机器人、无人机航拍、虚拟现实体验、远程手术辅助等众多场景。研究团队已将TVRBench的代码、数据集和训练好的模型全部开源,供更多研究者在此基础上继续探索。
对于AI能否真正获得接近人类的主动空间行动智能,这或许只是起点。
Q&A
Q1:TVRBench测试的任务具体是什么,为何不直接用现有的图像导航测试?
A:TVRBench测试的是“目标视角复现”任务,即让AI在三维室内环境中主动移动和调整视角,直到自身画面与给定目标照片完全一致——位置坐标、朝向角、俯仰角均需精确吻合才算成功。现有图像导航任务(如ImageNav)仅要求AI到达目标区域附近,不要求最终视角与目标照片匹配,测试的能力有本质区别。TVRBench专注于视角的精确复现,而非粗略的位置接近。
Q2:为何加入推理过程(思维链)反而导致成功率下降?
A:本研究中,添加推理过程会使训练数据中每一步都附带一段文字说明,导致整条轨迹(30至40步)的上下文变得极长,模型容易被大量文字信息干扰而偏离核心的动作学习。更关键的是,这些推理文字是由另一模型“事后补充”的解释,与连续行动中真正需要的实时空间规划能力存在差距,并不能有效指导模型学习实际的导航决策。
Q3:多轮强化学习为何比单步强化学习效果好很多?
A:单步强化学习每次只训练一个孤立的动作决策,模型仅在专家示范过的场景状态下学习,从未接触“走错了该怎么办”的情况,导致在实际连续任务中一旦出现偏差就无法恢复,错误不断累积。多轮强化学习则让AI在真实环境中完整地走完整条路径,能接触到各种非最优的中间状态,并通过整条轨迹的综合奖励信号学会如何纠错和恢复,因此更适合这类需要多步决策的主动感知任务。