上海交大VLA空间感知突破：0.9B模型实现90%真机成功率权威评测

2026-05-27阅读 0热度 0

上海交大

机器人能“看见”世界，但准确理解三维空间关系却是另一回事。这正是当前视觉-语言-动作模型普遍存在的感知瓶颈。多数模型依赖二维图像信息，在执行需要精确定位、精细操作或判断物体间遮挡关系的任务时，性能表现往往不尽如人意。

要弥补空间感知能力的不足，主流方法通常面临两难选择。显式3D方案依赖深度传感器和点云重建，硬件链路复杂，对设备标定误差极为敏感；隐式3D方案则尝试直接从RGB图像中学习几何信息，虽免去了额外硬件，但许多实现依赖参数量庞大的基础模型，导致训练与推理成本高昂。

上海交通大学MINT实验室团队近期提出了一种新颖的折中方案：Evo-Depth。这个参数量约0.9B的模型，无需增加硬件负担，而是通过一种紧凑的隐式深度编码机制，将空间感知能力直接嵌入VLA模型的决策流程。该方案在仿真与真实机器人部署场景中，均实现了性能与效率的良好平衡。

基准测试结果验证了其有效性：在Meta-World任务上达到84.4%的成功率，在LIBERO任务上更是取得了95.4%的高分。部署至真实机器人平台后，平均成功率稳定在90%左右。其部署开销同样引人注目：仅需约3.2 GB的GPU显存，推理频率可达约12.3 Hz。

该项目的代码、模型权重及完整训练脚本均已开源。

轻量化与端到端训练架构

Evo-Depth的设计逻辑清晰直接：从多视角RGB图像中提取紧凑的隐式深度表征，以轻量化方式将其融入视觉-语言处理通路，最终通过一个基于流匹配的动作专家模块，输出连续、精确的动作指令。

整个系统架构由三个核心组件构成：

1. 隐式深度编码模块

该模块的核心任务是从多视角图像中提取隐式深度特征。其设计重点并非生成高成本的显式3D中间表示，而是高效捕捉场景的空间布局与相对几何关系。为实现轻量化，IDEM的主干网络参数量控制在约0.13B，并借助多视角深度预训练进行初始化，从而在有限参数下引入了关键的深度先验知识。

2. 空间增强模块

SEM负责将IDEM提取的隐式深度特征，作为调制信号来增强视觉-语言联合表征。这种融合策略比增设独立的深度处理分支更为高效：原有的视觉语言模型继续专注于语义理解，而深度特征则专门提供空间信息补充。这种分工旨在提升模型空间感知能力的同时，严格控制延迟与显存开销。

3. 渐进式对齐训练策略

为解决多模块联合训练时的优化不稳定问题，研究团队采用了渐进式对齐训练。训练过程分阶段进行：首先对齐深度表征，随后进行多模态融合，最后学习动作策略。这种分步方法有效提升了训练稳定性与最终性能。动作头采用了当前VLA领域主流的流匹配方法。

在总参数量约0.9B的配置下，模型综合性能表现如下：

仿真基准： Meta-World成功率84.4%，VLA-Arena成功率41.1%，LIBERO成功率95.4%，LIBERO-Plus成功率69.6%。

真机部署： 平均成功率约90%。

部署指标： 约需3.2 GB GPU显存，推理频率约12.3 Hz。

值得强调的是，论文不仅关注基准测试分数，也明确给出了部署侧的资源消耗与实时性指标。对于最终需集成到机器人实时控制回路中的VLA系统而言，这些部署可行性数据与任务成功率同等重要。

本质上，Evo-Depth旨在解决一个核心工程问题：如何在不显著增加系统整体复杂性与资源消耗的前提下，实质性提升VLA模型的空间感知与操作精度。

从结果来看，它找到了一种有效的平衡点：相较于纯二维的VLA模型，它补充了关键的三维空间信息；而与依赖显式3D重建或庞大基础模型的“重型”方案相比，它最大程度地保持了部署的轻量化与实时可行性。

对于专注于机器人灵巧操作、空间智能或VLA系统开发的团队而言，这类在模型性能、计算成本与系统实时性之间进行精妙权衡的方案，其工程价值日益凸显。在追求更高层级智能的同时，确保算法能够高效、稳定地“落地”，始终是机器人技术工程化道路上的关键挑战。