DIAL决策框架：港大与小鹏机器人联合研发，效率提升十倍的AI机器人行动新范式

2026-05-17阅读 0热度 0

效率提升

让机器人执行“把桌上的苹果放进篮子里”这类指令，看似直观，实则是对其感知、认知与物理交互能力的综合考验。它需要精准识别物体，深刻理解任务语义，并规划出从抓取到放置的完整动作序列。近年来，视觉-语言模型（VLM）的突破催生了端到端的视觉-语言-动作（VLA）模型，旨在让机器人根据指令和视觉输入直接生成动作，这被视为实现通用机器人的一条关键路径。

然而，现有方法普遍存在架构性局限。许多方案将强大的VLM降级为静态的特征提取器，试图将其输出的视觉-语言特征直接映射到低层电机控制指令。这种设计如同让战略指挥官去微调每个士兵的肌肉动作，不仅未能充分利用VLM的高层推理与规划能力，还常引发训练不稳定，甚至损害模型原有的丰富语义知识。核心矛盾在于：如何构建一个既能进行高层任务规划，又能执行底层精准控制，且两者能协同优化的统一架构？

香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队提出的DIAL框架，为这一难题提供了精巧的解决方案。其核心创新在于引入了一个可微分的“潜在意图瓶颈”，在高层认知模块与底层控制模块之间，构建了一座严格且通畅的桥梁。

论文标题：DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

论文链接：https://arxiv.org/pdf/2603.29844v1

项目主页：https://xpeng-robotics.github.io/dial

一、现有方法的瓶颈：耦合过紧或过松

理解DIAL的突破，需先审视当前VLA模型面临的两难困境。

一类是分层规划模型。这类方法通常让大模型（如VLM或大语言模型）生成高级规划（如文本子任务或代码），再由独立的底层控制器执行。其优势在于可解释性强，但大模型与控制器之间常存在不可微的接口（如文本），导致动作执行的梯度无法反向传播以修正高层规划。这造成了“大脑”与“手脚”的割裂，协同优化困难，且推理延迟较高。

图1：不同VLA架构对比。分层模型（左）通过文本/像素规划产生不可微的间隙；传统端到端VLA（中）将特征直接映射为动作，意图与动作关联松散；DIAL（右）引入了可微分的潜在瓶颈，强制动作基于预测的意图生成。

另一类是端到端VLA模型。它们试图直接将多模态输入映射为连续动作。为增强物理感知，一些最新工作引入了预测未来帧等“世界模型”辅助任务。但问题在于，这些预测的未来特征往往仅作为可选上下文提供给策略模型，耦合过于松散。

这种松散耦合无法严格保证机器人动作是基于VLM的真实任务意图推导而来。策略模型可能绕过对物理动态的理解，学习到虚假的统计关联，即陷入“捷径学习”。

二、DIAL的核心思想：双系统架构与潜在意图瓶颈

DIAL的灵感源于人类认知的“双系统理论”：系统2负责慢速、深思熟虑的推理；系统1负责快速、反射式的反应。DIAL将这一理论映射到机器人架构中，设计了清晰的双系统：

系统2（“大脑”- VLM）：负责潜在世界建模。其核心任务不是直接输出动作，而是在其视觉Transformer（ViT）的特征空间内，预测未来某个子目标状态的“潜在视觉前瞻”。这个预测出的潜在特征，是VLM对任务意图的显式编码，相当于一张在特征空间绘制的“未来路线图”。
系统1（“小脑”- 策略网络）：负责潜在逆动力学控制。它接收当前观测和系统2预测的“潜在意图”，然后像一个逆向模型，精确计算出从当前状态抵达预测未来状态所需的一系列电机指令。

图2：DIAL的双系统架构示意图。系统2（上）基于语言指令和当前观测，通过其大语言模型骨干和可学习查询词元，合成潜在前瞻。系统1（下）融合当前特征与预测意图，作为条件指导一个基于扩散Transformer的动作解码器生成动作序列。

真正的创新在于“瓶颈”设计。系统1生成动作的唯一依据，是当前状态特征与系统2预测的“意图”特征之间的差异。这形成了一个结构化的、可微分的强制约束：所有动作的生成都被牢牢锚定在VLM的预测意图之上，彻底杜绝了策略模型忽略意图、走捷径的可能性。

同时，由于“意图”是连续的特征向量，整个信息管道完全可微。动作执行的梯度可以顺畅回流，指导系统2优化其意图预测，使其变得更“有利于动作执行”。两者由此进入协同进化的良性循环。

三、稳定的训练策略：从解耦预热到端到端协同

直接对复杂双系统进行端到端训练极易不稳定。DIAL设计了两阶段训练范式，实现了“先分后合”的稳定优化：

解耦预热阶段：系统2和系统1独立训练。系统2使用大量（甚至无需动作标签的）数据，学习根据当前观测和指令预测真实的未来视觉特征，从而掌握物理动态。同时，系统1在“完美”的未来特征（即真实未来观测的特征）指导下，学习如何将当前状态映射为目标动作，掌握运动控制。两者在统一的VLM特征空间中对齐，为后续连接奠定基础。
端到端协同阶段：预热完成后，正式连接两个系统。系统1的条件变为系统2预测的（可能不完美的）意图。动作生成损失的梯度穿过瓶颈，反向传播给系统2。系统2在继续优化预测准确性的同时，也开始接收来自下游动作执行的反馈，使其预测的意图逐渐演变为一个为动作执行而优化的、“动作感知”的表示。

此策略确保了训练稳定性，避免了联合训练初期因系统2预测不准而带偏系统1，也有效保护了VLM宝贵的预训练知识不被破坏。

四、卓越的性能表现：高效率与强泛化

研究团队在RoboCasa GR1桌面任务模拟基准和真实的IRON-R01-1.11人形机器人上，对DIAL进行了全面验证。

图3：在RoboCasa GR1桌面任务模拟基准（全量数据）上的性能对比。DIAL取得了显著领先的成功率。

在模拟基准测试中，使用全部数据时，DIAL以70.2%的平均成功率，超越了包括FLARE、GR00T-N1.6在内的所有先进基线，确立了新的性能标杆。

其数据效率更为突出。在仅使用10%数据的少样本设定下，DIAL达到了58.3%的成功率，这甚至超过了部分基线模型使用100%数据训练后的性能，实现了近10倍的数据效率提升。

得益于从大规模人类演示数据（如EgoDex数据集）中学习到的物理先验，DIAL在面对未见过的物体类型、新颖的物体-容器组合以及不同的视觉外观时，都表现出了强大的零样本泛化能力。

在真实机器人实验中，DIAL成功完成了抓放、倾倒等任务，并能从容应对组合泛化（从多个熟悉物体中识别指令目标）、干扰物鲁棒性（忽略背景中新物体）、实例级迁移（操作从未见过的瓶子）等复杂挑战。

五、可解释的潜在意图

DIAL的“潜在意图”具备良好的可解释性。可视化分析显示，系统2预测的未来潜在特征，在任务关键区域（如待移动物体、目标容器）与真实的未来特征高度相似，而与当前观测特征在这些区域则存在显著差异。这清晰表明，系统2确实在特征空间中构建了一个有意义的、关于未来状态变化的“视觉路线图”，并成功地将这张图传递给了系统1去执行。

图6：潜在特征可视化。前两列显示预测的前瞻与真实未来在特征空间中对齐，最后一列的热图显示了预测意图与当前观测在空间上的差异，暖色区域即模型预期会发生变化的部位。

六、总结与展望

总体而言，DIAL框架通过引入“潜在意图瓶颈”，为端到端VLA模型提供了一种结构化的新范式。它将大视觉语言模型从被动的特征编码器，提升为主动的决策规划者，同时通过可微分的桥梁，确保了低层策略的精确执行与协同优化。其展现出的卓越数据效率、训练稳定性和零样本泛化能力，为构建更通用、更高效的具身智能体指明了有前景的方向。

未来，研究团队计划探索利用更大规模、无动作标签的人类视频数据预训练系统2，以进一步提升其世界建模的广度和深度。同时，对视觉编码器进行端到端微调，以及采用更高效的潜在表征压缩方法，也是持续提升模型性能与效率的关键路径。DIAL所倡导的“以潜在前瞻为通用接口”的理念，有望成为推动新一代通用机器人智能体发展的核心架构思想之一。