ACE-Ego具身操作VLA模型:大晓港中文联合开源深度评测

2026-06-18阅读 0热度 0
机器人

ACE-Ego模型深度解析

具身智能行业长期受困于机器人本体差异悬殊,单一模型难以跨平台泛化。大晓机器人与港中文MMLab联合开源的ACE-Ego,旨在从底层破解这一瓶颈。

ACE-Ego本质上是一个“一脑多型”的具身操作VLA框架。其训练数据极具特色——超过6000小时的人类第一视角操作视频。核心逻辑是让模型通过观察人类操作先建立任务理解,而非直接学习机器人专属动作轨迹。借助相机空间动作与形态条件编码两大关键技术,同一套模型参数可无缝切换至不同机器人本体。

实测表现方面,在RoboCasa GR1 TableTop基准上,ACE-Ego以72.8%的成绩刷新历史最佳。更值得关注的是,塑料袋打包、鞋盒装鞋这类高复杂度零售操作,模型也能稳定复现。这意味着多本体部署的硬件和人力成本有望大幅压缩。

ACE-Ego核心功能一览

  • 多机器人智能适配:同一VLA模型借助形态条件编码,即可适配多款机器人,省去繁琐的独立训练流程。
  • 高精度操作能力:支持零售场景中塑料袋封装、鞋盒包装等长周期、高接触强度的精细任务。
  • 双臂协同控制:在RoboTwin 2.0高难度双臂基准测试中达成90.62%的成功率,复杂双手协作游刃有余。
  • 全栈开源生态:模型与配套资源完全开源,显著降低具身智能领域的技术准入门槛。

ACE-Ego技术架构拆解

以下是构成ACE-Ego核心技术竞争力的几个关键设计模块。

  • 人类中心预训练:整合超过6000小时人类第一人称视频、多本体机器人演示及仿真数据。核心理念是用人类日常操作视频构建通用表征,再通过少量机器人数据微调完成技能迁移。相比完全依赖昂贵的机器人演示数据,效率呈数量级提升。
  • 相机空间动作机制:将动作预测统一映射至相机坐标系。此举有效消除因机器人本体和相机视角差异导致的动作空间不统一,使模型能够跨形态输出标准化的动作指令。
  • 形态条件编码:通过编码机器人形态信息,例如关节结构、自由度配置,使模型理解不同本体的物理约束。同一模型内部即可原生适配多种机器人硬件平台。
  • 置信度感知训练:在训练阶段引入可靠性评估机制,区分高置信度与低置信度动作预测。这对确保复杂接触操作中的稳定性与安全性至关重要。

ACE-Ego部署与使用指引

部署流程清晰直观,按以下步骤操作即可完成接入:

  • 环境初始化:克隆官方GitHub仓库,安装Python依赖库,确保系统已配置PyTorch和CUDA运行环境。
  • 模型权重获取:从开源渠道下载ACE-Ego预训练权重文件,加载以人类交互为中心的VLA基础模型。
  • 本体参数配置:通过形态条件编码接口,录入目标机器人的URDF结构、关节自由度与相机参数,完成跨形态适配。
  • 相机标定:对机器人搭载的RGB-D相机进行内外参标定,建立统一的相机空间动作坐标系。
  • 轻量微调(按需):若需处理特定任务,可采集少量机器人演示数据,结合人类视频预训练权重进行轻量化迁移微调。
  • 视觉信号接入:将机器人实时相机画面与语言指令(例如“将鞋子装入鞋盒”)输入模型。
  • 动作推理输出:模型自动生成相机空间下的末端执行器动作序列,涵盖位置、姿态及夹爪开合度。
  • 控制指令映射:将相机空间动作指令转换为目标机器人本体的关节控制信号,驱动硬件完成操作。
  • 可靠性校验:启用置信度感知模块过滤低置信度动作,保障长周期复杂操作的安全稳定执行。

ACE-Ego核心竞争力

  • 业界领先指标:RoboCasa GR1 TableTop基准72.8%的成绩刷新SOTA,显著超越π0.5(37.0%)和GR00T-N1.6(47.6%)。
  • 跨形态泛化能力:一脑多型架构支持单一模型适配不同机器人,大幅削减多本体部署的综合成本。
  • 复杂任务掌控:在高接触、长周期零售操作中保持高稳定性,覆盖从商品整理到打包履约的完整业务链。
  • 数据利用效率:基于人类视频数据预训练,极大降低对昂贵机器人演示数据的过度依赖。

ACE-Ego官方资源入口

  • 项目官网:https://acerobotics-vla.github.io/ACE-Ego/
  • GitHub仓库:https://github.com/ACERobotics-VLA/ACE-Ego-0
  • 技术论文:https://acerobotics-vla.github.io/ACE-Ego-0/paper.html

ACE-Ego同类竞品横向对比

与行业知名模型π0.5的直接对比,差距清晰可见:

维度 ACE-Ego π0.5
发布方 大晓机器人 × 港中文MMLab Physical Intelligence
定位 一脑多型具身操作VLA 通用流匹配VLA模型
RoboCasa GR1 72.8%(SOTA) 37.0%
预训练数据 6.0K+小时人类视频 + 机器人数据 大规模多本体机器人数据
核心特色 以人为中心、相机空间动作、形态条件编码 流匹配动作生成、大规模预训练
开源状态 开源 闭源(API/模型权重受限)
形态适配 原生支持一脑多型 需针对各本体单独微调

对比可见,ACE-Ego在性能领先的同时,开源策略与跨形态适配能力构成了碾压式优势。

ACE-Ego典型应用场景

  • 零售履约:覆盖超市、便利店中的商品整理、塑料袋封装、鞋盒包装等线下零售操作自动化。
  • 物流仓储:实现仓库内物品分拣、装箱、码垛等高接触强度环节的智能化升级。
  • 家庭服务:承担居家环境中物品收纳、整理、轻度清洁等日常家务辅助任务。
  • 商业服务:应用于商场、酒店、餐厅的物料搬运、陈列维护与台面整理等场景。
  • 工业制造:支持生产线上的零部件装配、工具取放、物料转移等精细工业操作。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策