DIAL决策框架:港大与小鹏机器人联合研发,效率提升十倍的AI机器人行动新范式

2026-05-17阅读 0热度 0
效率提升

让机器人执行“把桌上的苹果放进篮子里”这类指令,看似直观,实则是对其感知、认知与物理交互能力的综合考验。它需要精准识别物体,深刻理解任务语义,并规划出从抓取到放置的完整动作序列。近年来,视觉-语言模型(VLM)的突破催生了端到端的视觉-语言-动作(VLA)模型,旨在让机器人根据指令和视觉输入直接生成动作,这被视为实现通用机器人的一条关键路径。

然而,现有方法普遍存在架构性局限。许多方案将强大的VLM降级为静态的特征提取器,试图将其输出的视觉-语言特征直接映射到低层电机控制指令。这种设计如同让战略指挥官去微调每个士兵的肌肉动作,不仅未能充分利用VLM的高层推理与规划能力,还常引发训练不稳定,甚至损害模型原有的丰富语义知识。核心矛盾在于:如何构建一个既能进行高层任务规划,又能执行底层精准控制,且两者能协同优化的统一架构?

香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队提出的DIAL框架,为这一难题提供了精巧的解决方案。其核心创新在于引入了一个可微分的“潜在意图瓶颈”,在高层认知模块与底层控制模块之间,构建了一座严格且通畅的桥梁。

图片

论文标题:DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

论文链接:https://arxiv.org/pdf/2603.29844v1

项目主页:https://xpeng-robotics.github.io/dial

一、现有方法的瓶颈:耦合过紧或过松

理解DIAL的突破,需先审视当前VLA模型面临的两难困境。

一类是分层规划模型。这类方法通常让大模型(如VLM或大语言模型)生成高级规划(如文本子任务或代码),再由独立的底层控制器执行。其优势在于可解释性强,但大模型与控制器之间常存在不可微的接口(如文本),导致动作执行的梯度无法反向传播以修正高层规划。这造成了“大脑”与“手脚”的割裂,协同优化困难,且推理延迟较高。

图片

图1:不同VLA架构对比。分层模型(左)通过文本/像素规划产生不可微的间隙;传统端到端VLA(中)将特征直接映射为动作,意图与动作关联松散;DIAL(右)引入了可微分的潜在瓶颈,强制动作基于预测的意图生成。

另一类是端到端VLA模型。它们试图直接将多模态输入映射为连续动作。为增强物理感知,一些最新工作引入了预测未来帧等“世界模型”辅助任务。但问题在于,这些预测的未来特征往往仅作为可选上下文提供给策略模型,耦合过于松散。

这种松散耦合无法严格保证机器人动作是基于VLM的真实任务意图推导而来。策略模型可能绕过对物理动态的理解,学习到虚假的统计关联,即陷入“捷径学习”。

二、DIAL的核心思想:双系统架构与潜在意图瓶颈

DIAL的灵感源于人类认知的“双系统理论”:系统2负责慢速、深思熟虑的推理;系统1负责快速、反射式的反应。DIAL将这一理论映射到机器人架构中,设计了清晰的双系统:

  • 系统2(“大脑”- VLM):负责潜在世界建模。其核心任务不是直接输出动作,而是在其视觉Transformer(ViT)的特征空间内,预测未来某个子目标状态的“潜在视觉前瞻”。这个预测出的潜在特征,是VLM对任务意图的显式编码,相当于一张在特征空间绘制的“未来路线图”。
  • 系统1(“小脑”- 策略网络):负责潜在逆动力学控制。它接收当前观测和系统2预测的“潜在意图”,然后像一个逆向模型,精确计算出从当前状态抵达预测未来状态所需的一系列电机指令。

图片

图2:DIAL的双系统架构示意图。系统2(上)基于语言指令和当前观测,通过其大语言模型骨干和可学习查询词元,合成潜在前瞻。系统1(下)融合当前特征与预测意图,作为条件指导一个基于扩散Transformer的动作解码器生成动作序列。

真正的创新在于“瓶颈”设计。系统1生成动作的唯一依据,是当前状态特征与系统2预测的“意图”特征之间的差异。这形成了一个结构化的、可微分的强制约束:所有动作的生成都被牢牢锚定在VLM的预测意图之上,彻底杜绝了策略模型忽略意图、走捷径的可能性。

同时,由于“意图”是连续的特征向量,整个信息管道完全可微。动作执行的梯度可以顺畅回流,指导系统2优化其意图预测,使其变得更“有利于动作执行”。两者由此进入协同进化的良性循环。

三、稳定的训练策略:从解耦预热到端到端协同

直接对复杂双系统进行端到端训练极易不稳定。DIAL设计了两阶段训练范式,实现了“先分后合”的稳定优化:

  1. 解耦预热阶段:系统2和系统1独立训练。系统2使用大量(甚至无需动作标签的)数据,学习根据当前观测和指令预测真实的未来视觉特征,从而掌握物理动态。同时,系统1在“完美”的未来特征(即真实未来观测的特征)指导下,学习如何将当前状态映射为目标动作,掌握运动控制。两者在统一的VLM特征空间中对齐,为后续连接奠定基础。
  2. 端到端协同阶段:预热完成后,正式连接两个系统。系统1的条件变为系统2预测的(可能不完美的)意图。动作生成损失的梯度穿过瓶颈,反向传播给系统2。系统2在继续优化预测准确性的同时,也开始接收来自下游动作执行的反馈,使其预测的意图逐渐演变为一个为动作执行而优化的、“动作感知”的表示。

此策略确保了训练稳定性,避免了联合训练初期因系统2预测不准而带偏系统1,也有效保护了VLM宝贵的预训练知识不被破坏。

四、卓越的性能表现:高效率与强泛化

研究团队在RoboCasa GR1桌面任务模拟基准和真实的IRON-R01-1.11人形机器人上,对DIAL进行了全面验证。

图片

图3:在RoboCasa GR1桌面任务模拟基准(全量数据)上的性能对比。DIAL取得了显著领先的成功率。

在模拟基准测试中,使用全部数据时,DIAL以70.2%的平均成功率,超越了包括FLARE、GR00T-N1.6在内的所有先进基线,确立了新的性能标杆。

其数据效率更为突出。在仅使用10%数据的少样本设定下,DIAL达到了58.3%的成功率,这甚至超过了部分基线模型使用100%数据训练后的性能,实现了近10倍的数据效率提升。

图4:在少样本设定下的性能对比。

得益于从大规模人类演示数据(如EgoDex数据集)中学习到的物理先验,DIAL在面对未见过的物体类型、新颖的物体-容器组合以及不同的视觉外观时,都表现出了强大的零样本泛化能力。

在真实机器人实验中,DIAL成功完成了抓放、倾倒等任务,并能从容应对组合泛化(从多个熟悉物体中识别指令目标)、干扰物鲁棒性(忽略背景中新物体)、实例级迁移(操作从未见过的瓶子)等复杂挑战。

图5:在真实人形机器人上进行的三类零样本泛化任务结果。

五、可解释的潜在意图

DIAL的“潜在意图”具备良好的可解释性。可视化分析显示,系统2预测的未来潜在特征,在任务关键区域(如待移动物体、目标容器)与真实的未来特征高度相似,而与当前观测特征在这些区域则存在显著差异。这清晰表明,系统2确实在特征空间中构建了一个有意义的、关于未来状态变化的“视觉路线图”,并成功地将这张图传递给了系统1去执行。

图片

图6:潜在特征可视化。前两列显示预测的前瞻与真实未来在特征空间中对齐,最后一列的热图显示了预测意图与当前观测在空间上的差异,暖色区域即模型预期会发生变化的部位。

六、总结与展望

总体而言,DIAL框架通过引入“潜在意图瓶颈”,为端到端VLA模型提供了一种结构化的新范式。它将大视觉语言模型从被动的特征编码器,提升为主动的决策规划者,同时通过可微分的桥梁,确保了低层策略的精确执行与协同优化。其展现出的卓越数据效率、训练稳定性和零样本泛化能力,为构建更通用、更高效的具身智能体指明了有前景的方向。

未来,研究团队计划探索利用更大规模、无动作标签的人类视频数据预训练系统2,以进一步提升其世界建模的广度和深度。同时,对视觉编码器进行端到端微调,以及采用更高效的潜在表征压缩方法,也是持续提升模型性能与效率的关键路径。DIAL所倡导的“以潜在前瞻为通用接口”的理念,有望成为推动新一代通用机器人智能体发展的核心架构思想之一。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策