高德开源具身模型ABot-M0 通用大脑适配多形态机器人
机器人领域近期出现了一项值得关注的进展:高德地图正式将旗下ABot-M0模型全量开源。官方宣称,这是全球首个基于统一架构的机器人具身操作基座模型。核心目标很直接:打造一个“通用大脑”,让它能灵活适配不同形态的机器人本体。
理念听上去宏大,实际表现如何?从公开的评测结果来看,ABot-M0在Libero、Libero-Plus、RoboCasa等多个业内公认的权威基准上均取得了SOTA(当前最优)成绩。尤其在Libero-Plus基准中,任务成功率达到了80.5%。这一数字的含金量在于:相较于此前业界标杆方案Pi0,提升了近30个百分点。在技术迭代周期中,这样的提升幅度相当显著。
开源不能只停留在口号,关键看执行深度。高德这次的开源覆盖了数据、算法和模型三大核心维度。目标十分清晰:打破当前机器人领域普遍存在的数据孤岛与部署瓶颈,为整个行业提供一个具备前沿空间理解能力、且能“开箱即用”的通用技术底座。
数据:打破孤岛,统一“语言”
数据是AI模型的燃料。本次开源的一大亮点是同步发布了名为UniACT的通用机器人数据集。该数据集整合了超过600万条真实操作轨迹,据称是目前规模最大的。更关键的是,它提供了一套从原始异构数据到标准化训练数据的全流程处理管线。
不同厂商的机器人,传感器、控制接口千差万别,产出的数据如同各自方言。UniACT通过统一动作表示、坐标系和控制频率,相当于为所有机器人数据建立了一套“普通话”标准。这样一来,分散在全球、形态各异的机器人数据就能被统一利用,显著提升模型预训练的效率和效果。
算法:两大创新,直击痛点
在算法层面,ABot-M0开源了整套模型架构和训练框架,其中包含两项核心创新。
第一项是动作流形学习算法(AML)。传统机器人动作预测往往像是在充满噪声的环境中摸索,模型需要反复试错。AML摒弃了这种方式,直接让模型预测物理上可行且平滑的动作序列。这相当于为机器人规划了一条更靠谱的行动路径:解码效率更高,执行策略也更稳定。
第二项是双流感知架构。当前视觉语言大模型在语义理解上表现出色,但处理3D空间和几何关系时往往力不从心。ABot-M0的设计相当巧妙:一方面利用Qwen3-VL等VLM提供高级语义理解;另一方面,它预留了一个“即插即用”的接口,可以轻松接入专门的3D几何模块(如VGGT)。这样一来,无需改动核心骨干网络,就能直接弥补标准VLM在3D空间推理上的短板,让机器人对环境的理解既“懂意思”又“知深浅”。
模型与愿景:一个大脑,驱动万物
最后在模型层面,高德直接开源了端到端的预训练模型和完整工具链。对开发者和研究者而言,这意味着:无需从零搭建框架、积攒数据,可以直接在此基础上快速适配工业制造、家庭服务等具体场景。
更深层的意义在于,ABot-M0验证了“一个大脑驱动多种形态”的技术可行性。它为未来“通用大脑+专用躯体”的产业标准形成提供了实实在在的实证支撑。如果这条路线能够走通,机器人开发的门槛有望大幅降低,应用落地的速度也会加快。
对该技术进展感兴趣的读者,可通过以下资源获取更多信息:
- 论文标题:ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
- 项目主页:https://amap-cvlab.github.io/ABot-Manipulation
- 代码地址:https://github.com/amap-cvlab/ABot-Manipulation
- 论文全文:https://arxiv.org/pdf/2602.11236