高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

2026-04-28阅读 716热度 716
高德地图

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

2026年4月19日,在北京亦庄机器人半程马拉松现场,阿里巴巴旗下高德正式揭晓了其开放环境全自主具身机器人“高德途途”。这款四足机器人成功协助视障人士完成了复杂避障、动态人群穿行等一系列高难度挑战。此举标志着具身智能技术正式从受控的实验室环境,迈入了充满动态不确定性的开放世界。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

途途机器人能够胜任导盲这类严苛任务,其底层技术支撑正是高德全新发布的ABot全栈具身技术体系。该体系基于海量真实场景与千万级多模态Clip数据,将高德沉淀多年的空间智能资产,高效转化为具身核心训练资源。这是全球首个明确以AGI(通用人工智能)为目标构建的全栈技术体系。

从架构设计看,ABot体系突破了传统具身智能“单点拼凑、封闭验证”的碎片化路径。它首次将数据引擎、基座模型与执行中枢耦合为一个统一系统。目前,高德ABot系列模型已在全球15项权威基准测试中取得SOTA(领先水平)成绩。

ABot体系:三层飞轮式设计,构建持续进化的具身智能闭环

ABot体系的核心是闭环飞轮设计,涵盖数据、模型、应用三层。这三层深度咬合、互为引擎,实现了“数据驱动模型、模型服务应用、应用反哺数据”的良性循环。该设计精准解决了行业面临的数据稀缺、仿真鸿沟与技能泛化三大瓶颈,形成了一个能够持续自我进化的完整技术闭环。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

数据是具身智能的核心燃料,直接决定了其泛化能力上限。然而,不同于大语言模型,传统依赖真机采集数据的方式成本高昂,难以规模化。

作为数据层核心,ABot-World通过批量合成Video、Depth、Point Cloud、Trajectory四类训练数据,并配合RL Training Engine在虚拟环境中定义奖惩、反复试错。这套方法以高保真仿真替代了高昂的真机采集,从根本上弥合了Sim-to-Real(从仿真到现实)的鸿沟,将数据成本压缩了数个数量级。

模型层重点解决两大核心问题:具身操作的通用性和导航的长程性。其核心在于感知与决策。其中,ABot-M专精于操作任务,ABot-N则负责导航规划。两个模型分工训练,通过Model Skill机制组合调用,协同完成长程复杂任务。

应用层的核心是具身版“龙虾”ABot-Claw。它将异构机器人统一于共享的认知框架之下,打造出一个具备调度、记忆、分层控制与社会对齐能力的“执行中枢”,有效应对了长程任务闭环难、知识不共享等行业难题。

值得注意的是,ABot体系的设计逻辑直接沿袭自高德已验证的空间智能飞轮:依托近10亿月活场景产生的海量时空数据与实时反馈,算法在闭环中持续迭代,推动模型对物理世界的认知不断加深。这个飞轮每日都在真实世界中自动演进。这从根本上奠定了高德的体系化优势:它不依赖于单点技术的偶然突破,而是依靠整个飞轮在真实场景中持续运转的“转速”。

ABot-World:物理合规性、动作可控性、零样本泛化三大维度均达全球第一

当主流世界模型仍受困于“视觉幻觉”与动力学脱节时,ABot-World率先取得了突破。它成为全球首个将物理定律深度嵌入生成全流程的可微分、可进化动力学引擎。作为ABot体系的底层仿真基座,它直接决定了上层模型的物理一致性与泛化上限。正是以该引擎为核心,ABot体系彻底打通了“虚拟训练-真实部署”的闭环。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

在架构上,ABot-World专为具身智能设计了14B DiT架构。它以观测与动作为输入,在潜空间直接生成符合时空动力学的未来状态序列,并基于千万级真实数据与多层级采样治理,突破了单一任务的泛化制约。

在场景构建上,其3DGS冷启动空间基座面向手机拍摄、航测图等稀疏输入,通过“粗建模、高保真修复再到蒸馏回环”的自动化流程,将低质量视频转化为高质量3D场景,大幅降低了数据构建成本。

训练方面,模型首创了Diffusion-DPO物理偏好对齐框架。该框架由VLM生成物理规则清单并独立判别,构建优劣样本对,从而驱动模型主动抑制违反物理规律的行为。同时,拉格朗日动力学与3DGS重建的融合,使得每一帧画面都成为包含质量、摩擦、接触力等属性的可微分物理快照。

除此之外,ABot-World还构建了“训练+数据”双引擎并行架构,实现了模型自进化。依托自有地图与脱敏数据,结合3DGS技术实现厘米级重建与光照一致性,系统已累计生产万级3D真实场景、百万级推理数据与千万级训练轨迹,覆盖了99%的典型生活场景。通过接入VLA闭环,模型实现了“预测即训练,演练即学习”的持续进化,并经由跨形态动作映射,统一支持多种机械形态的精确控制。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

在PBench、EZSbench、WorldArena、Agibot World Challenge等主流评测中,ABot-World持续保持领先,并成为唯一在物理合规性、动作可控性、零样本泛化三大维度均达到SOTA的模型。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

ABot-N & ABot-M:ABot体系的“运动双核”,跨本体导航与操作基座斩获11项SOTA

若将ABot全栈体系视为具身智能的“运行大脑”,那么ABot-N与ABot-M便是其“运动双核”。它们分别掌管机器人的“双腿”与“双手”,直接响应物理世界中“去哪里”与“做什么”的基础指令。依托统一架构设计,高德打造出可解耦又可协同的专用基座模型,一举突破了跨形态适配与跨任务泛化的技术瓶颈。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

作为全球首个实现五大核心导航任务“大一统”的VLA基座模型,ABot-N具备意图理解、自主决策与持续进化能力,是途途走向开放世界的核心导航引擎。它采用层级式“大脑-动作”架构,通过多模块协同实现单一模型对导航任务的全覆盖,彻底打破了传统专用架构的泛化天花板。

ABot-N推出后,迅速在VLN-CE(R2R/RxR)、HM3D-OVON、EVT-Bench等7大权威基准上全面刷新SOTA,并在导航精度、社会合规性、zero-shot泛化能力上实现了断层式领先。

高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环

ABot-M则是全球首个统一架构的具身操作基座模型。它实现了用一个“通用大脑”适配多种形态的机器人,大幅提升了操作模型在异构机器人形态和任务场景下的泛化能力。

技术上,ABot-M提出了全球首个动作流形学习,将学习目标由去噪重构转为流形投影,显著提升了动作生成的稳定性与解码效率,在高自由度全身控制等复杂场景中展现出更强的可扩展性。在感知端,它采用语义流和动作流双流并行的架构,提升了精细操作的执行精度。

在LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0等主流评测中,ABot-M全面超越了π0.5、UniVLA、OpenVLA-OFT等强基线,在泛化能力、鲁棒性与跨形态迁移三个维度实现了系统性领先。

不仅如此,ABot-N、ABot-M的多项子成果已入选ICLR、CVPR等顶级学术会议,成为精确、高效、安全的机器人导航与操作领域的范式参考。

ABot-Claw:首创“Map as Memory”的通用集中式Harness架构

记忆,是机器人跨越认知与执行鸿沟的底层基石。传统机器视觉受限于“视野之外即荒原”,记忆呈场景碎片化,严重制约了其泛化能力。

为突破这一瓶颈,ABot-Claw首创了“Map as Memory”理念,重构了具身智能的记忆机制。作为ABot体系的“执行中枢”,ABot-Claw采用集中式Harness架构,将高德地图与用户私有地图设为全局认知锚点,把多模态感知数据统一映射至共享语义空间,形成可动态刷新、持久沉淀的“世界记忆”。新终端接入后,仅需读取全局上下文即可零成本继承环境认知,彻底粉碎了场景孤岛。

另外,ABot-Claw采用“云端大脑—边缘响应”两级设计,兼顾了智能深度与执行可靠性。在调度层面,该架构还支持多种异构机器人的并行协作与任务接力,故障时可自动接续,实现任务上下文的无缝移交与跨形态协作。这标志着机器人系统正从“单体智能”向“体系智能”演进,机器人不再是孤立个体,而是共享记忆、统一调度、协同进化的智能网络节点。

ABot-Claw还首创了闭环反馈与纠错机制,在模糊指令理解、跨机导引等复杂场景中充分验证了其鲁棒性与泛化性。

伴随高德途途的全球首秀,高德同步宣布将开源ABot全体系。此举不仅是对“AMAP AI Inside”核心理念的深度践行,更可能重塑具身智能的研发范式,加速AGI时代的全面到来。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策