CVPR 2026精选:西湖大学王东林团队解析机器人时空认知新突破
设想一个典型的机器人操作场景:机械臂执行抓取水杯的动作,成功抬起后却突然停滞,随后将杯子放回桌面,紧接着再次尝试抓取。同一套动作循环往复,仿佛系统完全丢失了刚刚完成的操作记忆。这类现象在机器人实际部署中并不少见:已确认按下的按钮被反复触发,已关闭到位的抽屉被持续推挤。
这些失效案例的根本原因,往往并非视觉感知的缺陷,而是系统缺乏一个能够模拟物理世界状态连续演变的内部“世界模型”。当前主流的视觉-语言-行动模型虽能解析单帧图像与指令,但在执行连续任务时,其决策逻辑仍严重依赖于瞬时观测。一旦任务链条延长——例如涉及“拿起物体A,移动到位置B,放入容器C,最后关闭抽屉D”等多个步骤——模型便极易出现动作循环或决策断层。其核心瓶颈在于,对时间维度与状态连续性的建模能力严重不足。
这已成为制约具身智能迈向实用化的关键挑战。基于“感知-动作”反射弧的主流范式,在短平快任务中尚能应付,但在长序列、多步骤的复杂操作中,动作不连贯与决策漂移问题会急剧放大。如何让智能体不仅理解当下场景,更能记忆过往状态、推断未来变化,构成了新一代机器人学习模型必须攻克的核心课题。
针对这一挑战,西湖大学王东林团队的最新研究成果《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》提出了一种创新架构。HiF-VLA 摒弃了简单堆叠历史图像帧或预测未来画面的传统思路,转而将“运动信息”作为编码时间流的核心载体。这使得模型能够同步建模过去的动态变化、当前的完整状态以及未来的趋势推演,从而在长序列任务中实现更稳定、更连贯的自主决策。
这项工作的价值,不仅体现在多个基准测试上的性能突破,更在于其预示了一种根本性的范式演进:推动机器人从“被动反应式执行”转向“主动记忆与规划式行动”。在具身智能逐步渗透至工业、服务等真实场景的进程中,这种对时间与状态的深度理解能力,正成为衡量系统是否真正可靠、可用的决定性标尺。
终结动作遗忘:长序列任务性能突破
在专门评估长序列操作能力的LIBERO-Long测试集上,研究重点考察机器人连续执行多个子动作(如抓取、转移、放置、关闭)的完成度。实验数据显示,HiF-VLA在单视角条件下的任务成功率高达94.4%,在多视角条件下进一步提升至96.4%。
作为对比,当前性能领先的基线方法OpenVLA-OFT,在单视角和多视角下的成功率分别为91.0%和94.0%。这意味着,新方法在单视角下实现了3.4个百分点的绝对提升,在多视角下提升了2.4个百分点。
深入分析具体任务表现,在测试涵盖的10个任务中,有多个任务达到了100%的成功率,最低成功率的任务也维持在76%。这表明性能提升具有普适性,并非由少数优势任务拉高平均值。一个关键发现是:该方法在单视角下的表现,已逼近甚至超越了其他方法在多视角下的水平。这强烈暗示,其性能增益主要源于对时序信息的高效建模,而非单纯依赖更丰富的视觉输入。
在CALVIN跨环境泛化任务中,研究采用在A、B、C三个已知环境中训练的模型,直接测试于全新的D环境。核心评价指标是“连续成功完成任务数”,即模型能够不间断地连续完成多少步操作。结果显示,新方法在单视角下平均完成4.08个任务,在多视角下达到4.35个。而基线方法OpenVLA-OFT约为4.10,Seer约为4.28,RoboVLMs约为4.25。
可以看到,新方法在多视角条件下取得了最高的4.35,相比基线提升约0.25个任务。这一提升意义显著,因为该指标具有累积性,任何一步的失败都会导致计数归零。数值越高,越能证明模型在长序列决策中具备卓越的稳定性和长期规划能力。
性能提升是否以巨大的计算开销为代价?研究进一步进行了效率分析。当引入基于图像的未来子目标预测模块时,成功率可达91.8%,但决策延迟增至115.9毫秒,是基线的1.59倍。当采用堆叠历史图像帧的方法时,成功率反而降至90.4%,延迟飙升至229.5毫秒,达到基线的3.15倍。这证明,直接处理海量图像信息不仅计算成本高昂,还可能因信息冗余干扰模型判断。
相比之下,HiF-VLA的方案展现出显著的高效性:仅引入未来推理模块时,成功率为92.2%,延迟仅82.7毫秒,几乎无额外开销;仅引入历史信息时,成功率同样为92.2%,延迟为117.7毫秒;当历史与未来信息结合后,成功率提升至93.2%,延迟为121.6毫秒。整体而言,新方法在提升性能的同时,其计算成本远低于堆叠历史帧的方案,证实了使用运动信息比直接使用图像历史在效率上的优势。
研究还测试了模型对时序历史长度的扩展能力。随着历史长度从4逐步增加至8、16、32,性能在长度为8时达到峰值(单视角94.4%,多视角96.4%),继续增加长度反而导致性能下降,原因是信息过载引入了冗余与噪声。在延迟方面,传统方法的计算成本随历史长度线性增长,长度8时延迟增加约4.5倍;而新方法的延迟基本保持稳定,仅轻微增长,展现了在时间维度上更优的可扩展性与计算友好性。
最终,在真实机器人硬件实验中,研究设置了多个长序列任务进行验证。在“按特定顺序按压按钮”任务中,基线方法的成功率为17.4%,而新方法提升至34.2%,性能接近翻倍。在“覆盖与堆叠物体”任务中,基线为33.3%,新方法达到57.9%,绝对提升24.6个百分点。在“精准放置”任务中,基线约为62.5%,新方法约为65%,提升幅度虽小,但动作稳定性显著增强。
分析表明,基线方法难以判断按钮是否已被按下,因为其状态变化极其细微;而新方法能够利用编码了时间变化的运动信息来捕捉这种状态转变,因此在依赖精细状态判断的复杂任务中优势明显。这进一步证实,引入高效的时间信息建模能大幅增强机器人在长序列任务中的决策鲁棒性与环境适应性。
时序建模方法:系统性评估与对比
为确保评估的全面性,研究在实验设计上进行了系统规划。在仿真环境中,采用了LIBERO数据集的10个长序列任务,以及CALVIN数据集的跨环境泛化任务。在真实机器人实验中,每个任务收集100条示范数据用于训练,并在测试阶段对每个任务执行20次,以严谨评估模型的稳定性和泛化能力。
在模型输入设计上,系统同步接收三类信息:当前视觉观测(感知即时状态)、历史运动编码(表征过去的动态变化)以及自然语言指令(提供任务目标)。这种多模态输入设计使得模型能够在时间维度与语义空间进行联合推理与决策。
研究团队设置了多种基线方法进行系统性比较:第一种仅使用当前观测,不含任何时间信息;第二种通过堆叠历史图像引入时间信息,但存在信息冗余和计算成本高的问题;第三种通过预测未来图像作为子目标来引导决策,但容易产生累积误差且稳定性差。相比之下,新提出的方法用紧凑的运动信息替代原始图像来表示时间变化,从而显著减少了冗余,提升了时序建模的效率与精度。
通过详尽的消融实验,研究进一步剖析了不同架构选择的影响。首先在历史长度上,实验表明最优长度为8,过短则信息不足,过长则引入冗余干扰判断。其次在历史信息的使用方式上,比较了两种策略:一种是将历史信息直接输入前端视觉语言模型,此时成功率为92.8%;另一种是将历史信息注入到后端的决策模块中,成功率则提升到94.4%。这一结果说明,将历史信息直接混入前端视觉语言处理流程,可能会干扰其原有的场景理解能力;而在决策阶段引入历史信息,能更有效地发挥其对状态演变的理解作用。
范式演进:从即时反射到持续推理
本研究首先精准定位了传统模型的根本缺陷:决策过程过度依赖瞬时观测,缺乏对时间流的内部建模,导致动作序列断裂,在长流程任务中失败率攀升。问题的症结并非视觉感知精度,而是缺失对状态连续变化的表征与记忆能力。
基于此,研究得出了一个关键结论:运动信息比原始图像序列更适合作为时间变化的表征。图像中包含大量与任务无关的静态背景,而运动信息则过滤了这些冗余,聚焦于真正发生状态变化的区域,因而在表达效率与信息密度上更具优势。
这一结论带来了直接的范式影响:机器人的决策过程,从“感知-动作”的简单反射链,升级为同时融合历史经验、当前状态与未来预测的综合推理过程。换言之,从简单的“看到即执行”,演进为基于记忆、现状与推演共同驱动的“思考中行动”。
在工程价值层面,实验数据证实,该方法不仅在多项性能指标上取得显著提升(最高成功率96.4%),同时在计算效率上具备明显优势,避免了传统方法可能带来的数倍延迟开销。此外,它在不同环境与任务中展现出更强的泛化能力,并且在真实机器人实验中验证有效,预示着可观的落地应用潜力。
从更宏观的视角看,这项工作推动了一种智能范式的实质性演进:从“即时反射型”的视觉-语言-行动模型,走向“持续推理型”的世界-行动模型。HiF-VLA改变的不仅是模型的技术架构,更是在重新定义自主机器人应具备的核心认知能力边界。
过去的系统更像被动的指令执行者,仅对瞬时输入做出条件反射;而在新范式下,机器人开始具备连续决策与状态管理的能力,能够在行动中记忆刚发生的状态,判断当前所处的任务阶段,并合理预判接下来的操作步骤。这种转变意味着,机器人不再只是执行孤立的动作命令,而是能够理解并管理一个完整的任务流程,并在执行过程中进行动态调整与纠偏。
这也标志着,具身智能的发展正从“感知驱动的反应系统”,迈向“时间与状态驱动的推理系统”。只有当模型真正掌握这种对时间流与状态演变的内部建模能力,机器人才能在复杂、动态、非结构化的真实世界中稳定、可靠地工作,而不仅仅是在受控的实验室环境中完成预设的脚本化任务。
HiF-VLA 的核心研发团队
本论文的通讯作者王东林,现任西湖大学人工智能系副主任,是机器智能实验室(MiLAB)的创始人与负责人,同时也是西湖机器人科技(杭州)有限公司的创始人。
他本科与硕士毕业于西安交通大学电子信息工程专业,后在加拿大卡尔加里大学获得电子与计算机工程博士学位,并在加拿大从事博士后研究。此后,他在美国纽约理工学院任教并晋升为副教授,于2017年回国加入西湖大学,成为工学院首批全职教师之一,创建了机器智能实验室。他还担任国家科技创新2030重大项目首席科学家,并入选国家人社部高层次人才计划。
其研究方向长期聚焦于机器人学习与智能决策,重点关注强化学习、元学习及机器人行为智能,核心目标是让机器人具备自主学习、快速适应新环境并完成复杂长序列任务的能力。研究不仅关注感知理解,更强调从感知到决策再到行动的完整闭环,尤其是在长序列任务和真实环境中的稳定执行能力。
在学术成果方面,他已发表百余篇论文,活跃于机器人学习与强化学习等前沿领域。其团队是国内最早专注机器人学习的团队之一,提出了国际首个四足机器人VLA大模型、人形机器人VLA大模型、奖励无关人类反馈强化学习等创新工作。其近期合作的AAAI 2026论文斩获最佳论文奖,同时带领研发的通用行为专家大模型GAE也达到了人形机器人运动领域的国际领先水准。
另一位通讯作者黄思腾,现任阿里巴巴达摩院算法专家,博士毕业于浙江大学与西湖大学联合培养项目,在机器智能实验室完成博士研究,师从王东林教授。此前,他于武汉大学计算机科学专业获得本科学位。博士期间,他曾在阿里巴巴通义实验室与达摩院进行长期研究实习,整体经历贯穿学术前沿研究与工业界落地实践。
其研究方向主要聚焦于具身智能、多模态大模型及高效人工智能,核心关注如何让模型同时理解图像、视频、语言及物理世界中的动态信息,并在真实环境中进行感知、推理与生成。研究不仅涉及多模态理解与生成,还强调模型在数据、计算和存储等方面的效率优化,致力于构建能在现实世界中高效运行的统一智能系统。
在学术成果方面,他已在相关领域发表三十余篇论文,涵盖计算机视觉、多模态学习与机器人方向,并活跃于顶级国际会议和期刊。他参与了多项具身智能与多模态模型方向的研究工作,包括视觉语言行动模型及统一世界模型等,代表性工作涉及HiF-VLA、RynnVLA系列以及WorldVLA等框架,推动了机器人在长序列任务与真实环境中的能力提升。










