上海交大VLA空间感知突破:0.9B模型实现90%真机成功率权威评测

2026-05-27阅读 0热度 0
上海交大

机器人能“看见”世界,但准确理解三维空间关系却是另一回事。这正是当前视觉-语言-动作模型普遍存在的感知瓶颈。多数模型依赖二维图像信息,在执行需要精确定位、精细操作或判断物体间遮挡关系的任务时,性能表现往往不尽如人意。

要弥补空间感知能力的不足,主流方法通常面临两难选择。显式3D方案依赖深度传感器和点云重建,硬件链路复杂,对设备标定误差极为敏感;隐式3D方案则尝试直接从RGB图像中学习几何信息,虽免去了额外硬件,但许多实现依赖参数量庞大的基础模型,导致训练与推理成本高昂。

上海交通大学MINT实验室团队近期提出了一种新颖的折中方案:Evo-Depth。这个参数量约0.9B的模型,无需增加硬件负担,而是通过一种紧凑的隐式深度编码机制,将空间感知能力直接嵌入VLA模型的决策流程。该方案在仿真与真实机器人部署场景中,均实现了性能与效率的良好平衡。

基准测试结果验证了其有效性:在Meta-World任务上达到84.4%的成功率,在LIBERO任务上更是取得了95.4%的高分。部署至真实机器人平台后,平均成功率稳定在90%左右。其部署开销同样引人注目:仅需约3.2 GB的GPU显存,推理频率可达约12.3 Hz。

该项目的代码、模型权重及完整训练脚本均已开源。

轻量化与端到端训练架构

Evo-Depth的设计逻辑清晰直接:从多视角RGB图像中提取紧凑的隐式深度表征,以轻量化方式将其融入视觉-语言处理通路,最终通过一个基于流匹配的动作专家模块,输出连续、精确的动作指令。

整个系统架构由三个核心组件构成:

1. 隐式深度编码模块

该模块的核心任务是从多视角图像中提取隐式深度特征。其设计重点并非生成高成本的显式3D中间表示,而是高效捕捉场景的空间布局与相对几何关系。为实现轻量化,IDEM的主干网络参数量控制在约0.13B,并借助多视角深度预训练进行初始化,从而在有限参数下引入了关键的深度先验知识。

2. 空间增强模块

SEM负责将IDEM提取的隐式深度特征,作为调制信号来增强视觉-语言联合表征。这种融合策略比增设独立的深度处理分支更为高效:原有的视觉语言模型继续专注于语义理解,而深度特征则专门提供空间信息补充。这种分工旨在提升模型空间感知能力的同时,严格控制延迟与显存开销。

3. 渐进式对齐训练策略

为解决多模块联合训练时的优化不稳定问题,研究团队采用了渐进式对齐训练。训练过程分阶段进行:首先对齐深度表征,随后进行多模态融合,最后学习动作策略。这种分步方法有效提升了训练稳定性与最终性能。动作头采用了当前VLA领域主流的流匹配方法。

在总参数量约0.9B的配置下,模型综合性能表现如下:

仿真基准: Meta-World成功率84.4%,VLA-Arena成功率41.1%,LIBERO成功率95.4%,LIBERO-Plus成功率69.6%。

真机部署: 平均成功率约90%。

部署指标: 约需3.2 GB GPU显存,推理频率约12.3 Hz。

值得强调的是,论文不仅关注基准测试分数,也明确给出了部署侧的资源消耗与实时性指标。对于最终需集成到机器人实时控制回路中的VLA系统而言,这些部署可行性数据与任务成功率同等重要。

在性能、成本与实时性间寻求平衡

本质上,Evo-Depth旨在解决一个核心工程问题:如何在不显著增加系统整体复杂性与资源消耗的前提下,实质性提升VLA模型的空间感知与操作精度。

从结果来看,它找到了一种有效的平衡点:相较于纯二维的VLA模型,它补充了关键的三维空间信息;而与依赖显式3D重建或庞大基础模型的“重型”方案相比,它最大程度地保持了部署的轻量化与实时可行性。

对于专注于机器人灵巧操作、空间智能或VLA系统开发的团队而言,这类在模型性能、计算成本与系统实时性之间进行精妙权衡的方案,其工程价值日益凸显。在追求更高层级智能的同时,确保算法能够高效、稳定地“落地”,始终是机器人技术工程化道路上的关键挑战。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策