高德开源ABot-M0评测:能否终结机器人碎片化?
提到机器人操作,大家首先想到的可能是硬件形态五花八门、数据格式七零八落——这几乎是这个领域的老大难问题。不过,高德AMAP CV Lab最近放出的ABot-M0,或许真能把这个尴尬的局面翻篇了。
作为一款具身操作基座模型,它直接验证了一个通用大脑适配多种机器人形态的可行性。在Libero-Plus等权威测试中,它的表现刷新了行业纪录,成功率大幅领先此前的标杆方案Pi0。这背后到底藏着什么门道?
统一的数据基石 UniACT 数据集
机器人研究的一大痛点,就是数据没法通用。不同型号的机器人在动作表达和坐标系上各有各的脾气,数据很难规模化利用。ABot-M0团队为此构建了UniACT数据集——目前非私有领域规模最大的具身操作数据集。
这个数据集整合了OXE、AgiBot-Beta等六个主流公开源,包含600万条以上的真实操作轨迹,交互总时长超过9500小时。为了把这些数据的力量拧成一股绳,团队搭建了一套标准化的处理管线:所有动作统一转换成末端执行器坐标系下的增量动作,并用旋转向量来表示方向。至于单臂和双臂机器人并存的问题,他们用了补齐策略,让单臂数据在训练中被视为双臂架构的一部分。这样一来,单一参数模型就能兼容不同的肢体结构了。
动作流形学习算法 AML
在生成式模型的世界里,传统扩散模型习惯预测噪声。但ABot-M0团队提出了一个有意思的假设——动作流形假设。他们觉得,机器人的有效动作序列并不在高维空间中随机飘荡,而是存在于一个受物理定律和任务逻辑约束的低维、平滑流形上。
基于这个认知,ABot-M0采用了AML算法。它利用DiT骨干网络直接预测清晰的动作序列,而不是通过反复去噪来拟合目标。这相当于把学习重心从处理乱糟糟的噪声,转移到了投射可行路径上。实验数据也证实了:AML在处理长序列动作时表现更稳定,解码速度快得飞起,一举解决了机器人控制中常见的抖动和不连续问题。
感知层面的语义与几何双流架构
ABot-M0的感知能力,由4B参数规模的视觉语言模型Qwen3-VL撑起来。研究发现,经过大规模预训练后,VLM的深层特征已经具备了理解动作语义的能力,不再需要额外的动作查询指令来辅助。
为了补上视觉模型在3D空间推理上的短板,ABot-M0引入了模块化的感知机制——它可以像搭积木一样接入外部3D增强模块,比如VGGT或Qwen-Image-Edit。这种设计允许模型在不改动核心骨干网络的情况下,通过注入几何先验和合成多视角图像来增强空间感。在需要毫米级精度的精细操作任务中,这种架构的优势就格外明显了。
权威测试表现
在Libero-Plus测试中,ABot-M0拿到了80.5%的成功率。在涉及24个复杂任务的RoboCasa环境里,它以58.3%的成绩领先其他同类模型。这些数据清晰表明,ABot-M0在通用底座能力上已经相当成熟,能应对从工业操作到家庭场景的各种挑战。
环境安装与部署
ABot-M0需要在Python环境下运行。下面就把部署步骤拆开说。
1. 基础代码获取
先把项目主仓库以及必要的感知增强组件克隆下来。
git clone https://github.com/amap-cvlab/ABot-Manipulation.git
git clone https://github.com/facebookresearch/vggt.git
cd ABot-Manipulation2.环境配置
为了方便操作,可以用ServBay来管理Python环境——它支持多版本Python。在ServBay面板下载好Python 3.14,然后在终端执行以下操作。
# ServBay 用户可以直接使用其提供的 Python 环境,无需创建虚拟环境
# 安装项目所需的依赖组件
pip install -r requirements.txt
# 安装 FlashAttention2 提升计算效率
pip install flash-attn --no-build-isolation3. 核心组件与插件安装
将3D感知模块和ABot项目安装到当前的开发环境中。
# 安装几何感知模块 vggt
pip install -e ../vggt
# 安装 ABot 模型本体
pip install -e .4. 数据管线应用
如果需要处理自定义的轨迹数据,可以使用项目中开源的标准化工具链。这套工具能把各种原始机器人操作录像转换成符合UniACT标准的预训练格式,方便后续微调。
最后
目前ABot-M0已经全面开源了算法架构、模型权重以及数据处理管线。这种全开放的姿态,目的是降低具身智能的准入门槛,让开发者能跳过底层架构的重复劳动,直接进入上层应用场景的开发。所有代码、模型权重以及数据流水线均已发布在GitHub,开发者可以根据具体业务场景按需使用。



