高德开源ABot-M0评测：能否终结机器人碎片化？

2026-06-17阅读 0热度 0

机器人

提到机器人操作，大家首先想到的可能是硬件形态五花八门、数据格式七零八落——这几乎是这个领域的老大难问题。不过，高德AMAP CV Lab最近放出的ABot-M0，或许真能把这个尴尬的局面翻篇了。

作为一款具身操作基座模型，它直接验证了一个通用大脑适配多种机器人形态的可行性。在Libero-Plus等权威测试中，它的表现刷新了行业纪录，成功率大幅领先此前的标杆方案Pi0。这背后到底藏着什么门道？

统一的数据基石 UniACT 数据集

机器人研究的一大痛点，就是数据没法通用。不同型号的机器人在动作表达和坐标系上各有各的脾气，数据很难规模化利用。ABot-M0团队为此构建了UniACT数据集——目前非私有领域规模最大的具身操作数据集。

这个数据集整合了OXE、AgiBot-Beta等六个主流公开源，包含600万条以上的真实操作轨迹，交互总时长超过9500小时。为了把这些数据的力量拧成一股绳，团队搭建了一套标准化的处理管线：所有动作统一转换成末端执行器坐标系下的增量动作，并用旋转向量来表示方向。至于单臂和双臂机器人并存的问题，他们用了补齐策略，让单臂数据在训练中被视为双臂架构的一部分。这样一来，单一参数模型就能兼容不同的肢体结构了。

动作流形学习算法 AML

在生成式模型的世界里，传统扩散模型习惯预测噪声。但ABot-M0团队提出了一个有意思的假设——动作流形假设。他们觉得，机器人的有效动作序列并不在高维空间中随机飘荡，而是存在于一个受物理定律和任务逻辑约束的低维、平滑流形上。

基于这个认知，ABot-M0采用了AML算法。它利用DiT骨干网络直接预测清晰的动作序列，而不是通过反复去噪来拟合目标。这相当于把学习重心从处理乱糟糟的噪声，转移到了投射可行路径上。实验数据也证实了：AML在处理长序列动作时表现更稳定，解码速度快得飞起，一举解决了机器人控制中常见的抖动和不连续问题。

感知层面的语义与几何双流架构

ABot-M0的感知能力，由4B参数规模的视觉语言模型Qwen3-VL撑起来。研究发现，经过大规模预训练后，VLM的深层特征已经具备了理解动作语义的能力，不再需要额外的动作查询指令来辅助。

为了补上视觉模型在3D空间推理上的短板，ABot-M0引入了模块化的感知机制——它可以像搭积木一样接入外部3D增强模块，比如VGGT或Qwen-Image-Edit。这种设计允许模型在不改动核心骨干网络的情况下，通过注入几何先验和合成多视角图像来增强空间感。在需要毫米级精度的精细操作任务中，这种架构的优势就格外明显了。

权威测试表现

在Libero-Plus测试中，ABot-M0拿到了80.5%的成功率。在涉及24个复杂任务的RoboCasa环境里，它以58.3%的成绩领先其他同类模型。这些数据清晰表明，ABot-M0在通用底座能力上已经相当成熟，能应对从工业操作到家庭场景的各种挑战。

环境安装与部署

ABot-M0需要在Python环境下运行。下面就把部署步骤拆开说。

1. 基础代码获取

先把项目主仓库以及必要的感知增强组件克隆下来。

git clone https://github.com/amap-cvlab/ABot-Manipulation.git
git clone https://github.com/facebookresearch/vggt.git
cd ABot-Manipulation

2.环境配置

为了方便操作，可以用ServBay来管理Python环境——它支持多版本Python。在ServBay面板下载好Python 3.14，然后在终端执行以下操作。

# ServBay 用户可以直接使用其提供的 Python 环境，无需创建虚拟环境
# 安装项目所需的依赖组件
pip install -r requirements.txt

# 安装 FlashAttention2 提升计算效率
pip install flash-attn --no-build-isolation

3. 核心组件与插件安装

将3D感知模块和ABot项目安装到当前的开发环境中。

# 安装几何感知模块 vggt
pip install -e ../vggt

# 安装 ABot 模型本体
pip install -e .

4. 数据管线应用

如果需要处理自定义的轨迹数据，可以使用项目中开源的标准化工具链。这套工具能把各种原始机器人操作录像转换成符合UniACT标准的预训练格式，方便后续微调。

最后

目前ABot-M0已经全面开源了算法架构、模型权重以及数据处理管线。这种全开放的姿态，目的是降低具身智能的准入门槛，让开发者能跳过底层架构的重复劳动，直接进入上层应用场景的开发。所有代码、模型权重以及数据流水线均已发布在GitHub，开发者可以根据具体业务场景按需使用。