清华赋能机器人避障:像成龙一样灵活穿梭的智能家居助手

2026-05-16阅读 0热度 0
清华

在堆满杂物的客厅中自如行动:需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的狭窄缝隙。这对人类而言是近乎本能的动作,但对于人形机器人,却是一项集环境感知、动作规划与实时避障于一体的复杂挑战。

长期以来,传统强化学习方法将机器人的避障学习困在“低效试错”的循环中。这些方法通常在碰撞发生后才提供惩罚信号,迫使机器人经历大量失败才能摸索出安全路径,学习效率低下。更深层的问题是,直接处理来自激光雷达或摄像头的原始高维数据,机器人难以快速解析“自身与障碍物的空间关系”——例如,头部是否会撞到吊灯,腿部能否顺利跨过书本。现有技术大多针对单一类型障碍物进行优化,例如仅处理地面凸起或高空遮挡,难以应对真实家居环境中“地面有杂物、两侧有阻挡、头顶有吊灯”这种全空间约束的复合场景。

近期,清华大学与北京银河通用机器人(Galbot)合作的研究,为人形机器人带来了全新的“避障直觉”。这项名为HumanoidPF(人形势能场)的技术,将机器人与障碍物之间的空间关系编码为一个连续的梯度场。这相当于为机器人安装了一个无形的导航仪,通过场中“力”的引导,机器人能够自主选择安全路径,自然而然地完成弯腰、抬腿、侧身等灵活动作,从而在复杂的室内场景中实现无碰撞穿梭。

其核心突破在于,它使机器人摆脱了对“碰撞后惩罚”这一被动学习模式的依赖,转而通过前瞻性的环境引导,将避障转化为一种近乎“本能”的反应。这显著提升了人形机器人在非结构化真实场景中的实用性与可靠性。

• 论文标题:Collision-Free Humanoid Traversal in Cluttered Indoor Scenes

• 相关论文:https://arxiv.org/abs/2601.16035

• 项目主页:https://axian12138.github.io/CAT/

• GitHub:https://github.com/GalaxyGeneralRobotics/Click-and-Traverse

一、传统避障,困在“低效试错”里

在堆满杂物的客厅中穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝,这对人类而言轻而易举。但对机器人来说,却是融合环境感知、动作规划与碰撞规避的复杂挑战。

传统强化学习方法仅在碰撞发生时给予惩罚,机器人需要反复试错才能摸索出安全路径,学习效率极低。同时,直接处理激光雷达、摄像头的原始高维数据,机器人难以快速识别“自身与障碍物的空间关系”,例如“头部是否会撞到吊灯”或“腿部能否跨过书本”。现有方法多针对单一类型障碍物(如地面凸起或高空遮挡)进行优化,无法有效应对“地面有杂物、两侧有阻挡、头顶有吊灯”这种全空间约束的复合场景。

清华大学与Galbot团队提出的HumanoidPF(人形势能场),为机器人赋予了“避障直觉”。该技术将机器人与障碍物的空间关系编码为连续的梯度场,如同一个无形的“力场”引导机器人自主选择安全路径,无需复杂计算即可完成弯腰、抬腿、侧身等灵活动作,成功实现复杂室内场景的无碰撞穿梭。

其核心优势在于:不再让机器人依赖“碰撞后惩罚”的低效试错模式,而是通过前瞻性的环境引导,使避障成为一种“本能反应”,大幅提升了人形机器人在真实家居场景中的实用价值。

二、HumanoidPF:为机器人安装“避障导航仪”

HumanoidPF的灵感源于经典的人工势能场概念,但针对人形机器人复杂的多关节结构进行了关键性重构。简而言之,它将目标点视为“吸引力”,将障碍物视为“排斥力”,两者叠加形成一个连续的梯度场。这个场虽不可见,却能为人形机器人的每个身体部位提供明确的运动指引。

1. 构建HumanoidPF:用“力场”编码空间关系

HumanoidPF通过吸引力场和排斥力场的叠加,生成全局导航梯度场,其核心公式如下:

• 吸引力场(引导向目标):

这里的 d_geo(x, g) 是关键,它代表机器人身体部位x到目标点g最短无碰撞路径(测地线距离)。这意味着引导力是沿着避开障碍物的曲线前进,而非不切实际的直线穿越。

• 排斥力场(远离障碍物):

这部分基于障碍物的带符号距离场。原理直观:距离障碍物越近,产生的排斥力就越强,从而有效避免碰撞。

• 最终引导场(合成吸引力与排斥力):

最终合成的梯度场,其方向指示了机器人身体部位当前最优的运动方向——既要远离障碍物,又要朝着目标点前进。

HumanoidPF示意图:左图为势能场2D示意图(红色为障碍物排斥区,蓝色为目标吸引力区);右图为运动方向分布2D示意图,颜色越深表示该方向越安全,引导机器人自主选择最优路径。

2. 适配人形机器人:优先级加权,避免身体部位“打架”

人形机器人拥有头、躯干、四肢等多个独立部位,直接应用统一的势能场可能导致运动指令冲突——例如,左手需要向左躲,右手却需要向右躲。为了解决这个问题,HumanoidPF引入了精巧的优先级加权机制:

核心部位优先:像骨盆这样的核心躯干部位被赋予更高的权重,以确保机器人整体的运动方向稳定一致;四肢的权重则相对较低,从而能灵活地配合核心躯干的运动进行调整。公式如下:

危险部位加权:根据身体部位与障碍物的实时距离d(x_k)和该部位的运动速度v_k,动态提升处于危险中的部位的权重。公式如下:

这意味着,哪个部位离障碍物越近、运动速度越快,它的避障需求就越紧迫,系统会优先处理其规避动作。

最终的引导场由下式决定:

这套机制确保了机器人全身的运动协调一致,避免了内部指令的“打架”。

3. 双管齐下:让避障学习更高效

HumanoidPF并非孤立存在,它通过“感知输入+奖励引导”双重方式,无缝融入强化学习训练流程,从而大幅提升学习效率:

作为感知输入:系统在机器人的13个关键身体部位(包括头、胸、骨盆及四肢关节等)实时查询梯度场向量。这些向量构成了一个紧凑而高效的环境感知特征,让机器人能直接“感受”到每个部位应该如何移动。

作为奖励引导:将梯度场指示的理想运动方向,建模为冯·米塞斯-费舍尔分布。通过设计奖励函数,鼓励机器人实际做出的动作与这个理想方向对齐。公式如下:

其中, 是引导方向, 是方向集中度(核心部位集中度更高), 是机器人实际运动方向。

这种设计提供了密集且前瞻性的奖励信号。机器人无需等到“撞了南墙”才得到反馈,而是在整个运动过程中都能获得实时指导,学习效率自然成倍提升。

整体技术 pipeline:左:HumanoidPF构建及在学习中的双重作用(感知输入+奖励引导);右:混合场景生成与真实部署流程,从仿真训练到“点击导航”实际应用。

三、拓展训练:混合场景生成,让机器人“见多识广”

要让机器人从容应对真实世界的千变万化,必须在多样化的场景中对其进行训练。为此,研究团队提出了一套混合场景生成策略,显著提升了学习策略的泛化能力:

1. 真实场景裁剪:从3DFRONT等真实室内数据集中,裁剪出5m×5m大小的场景块,保留家具、家电等真实障碍物的布局和形态。

2. 程序化障碍物生成:通过算法人工生成包含“地面凸起、两侧阻挡、高空悬挂”等全空间约束的挑战性场景。甚至引入旋转、噪声扰动,来模拟现实中散落的书本、倾斜的盒子等不规则障碍物。

3. 课程学习:采用由易到难的训练方式。从仅包含单一障碍物的简单场景开始,逐步过渡到布满多类型障碍物的复杂复合场景,让机器人循序渐进地掌握避障技能。

通过这种“虚实结合”的训练方式,机器人得以见识各种“弯腰躲吊灯、抬腿跨杂物、侧身挤窄缝”的复合难题。当它在真实环境中遇到类似情况时,便能快速调用经验,做出恰当反应。

避障实测场景:(a)8种典型测试场景的避障行为;(b)程序化生成的复杂障碍物场景;(c)真实世界“弯腰-跨障”复合任务;(d)动态干扰下的避障表现,机器人能应对物体移动的突发情况。

四、实测:灵活应对8类场景

HumanoidPF在Unitree G1人形机器人上进行了全面测试。无论是在仿真环境还是真实世界中,都展现出了卓越的避障能力。

4. 仿真测试:8类场景成功率超90%

在精心设计的“弯腰-跨障”、“侧身-弯腰”、“多障碍物连续避障”等8类复杂场景中,基于HumanoidPF的方法成功率均超过90%。这一成绩远高于ASTraversal(28.1%-82.1%)和Humanoid Parkour(33.3%-88.7%)等基线方法。

特别是在最具挑战性的“侧身-弯腰-跨步”场景中——这要求机器人同时规避来自两侧和上方的障碍物——HumanoidPF仍取得了86.6%的成功率,大幅领先于其他基线,充分证明了其处理全空间约束的强悍能力。

8类场景避障性能对比:HumanoidPF(最后一行)在所有场景中均实现最高成功率(SR%)和最小距离误差(DE(m)),优势显著。

5. 真实世界:“点击导航”轻松穿梭

研究团队进一步将训练好的策略部署为一套“点击导航(Click-and-Traverse)”系统。用户只需在构建的环境地图上点击目标位置,机器人便会通过激光雷达感知环境、构建实时地图、计算HumanoidPF,并自主规划路径完成穿梭,全程无需人工遥控。

在真实的室内测试中,机器人成功完成了多项任务:

• 弯腰避开高度仅0.4米的低矮茶几;
• 抬腿跨过15厘米高的书本;
• 侧身挤过宽度仅0.8米的狭窄通道;
• 流畅应对“弯腰+跨障”的复合任务,全程稳定且无碰撞。

6. 泛化与鲁棒性:应对未知场景和动态干扰

零样本泛化:在从未训练过的、由艺术家设计的复杂场景(包含真实家具和不规则障碍物)中,经过混合场景训练的模型,在“简单场景”下成功率高达95.2%,在“复杂场景”下也达到了66.7%。这远高于仅使用真实场景数据训练的基线模型。

动态干扰应对:在机器人移动过程中,人为地移动障碍物。机器人能够实时更新HumanoidPF,并迅速调整运动轨迹以避免碰撞,展现了强大的环境适应性和鲁棒性。

混合场景生成的泛化性能:加入高难度程序化场景训练后(最后一行),机器人在未知复杂场景的成功率从1.2%提升至66.7%,泛化能力大幅提升。

五、关键优势:为什么HumanoidPF如此高效?

总结来看,HumanoidPF的高效性源于以下几个核心优势:

1. 前瞻性引导:摒弃了被动的“碰撞后惩罚”机制,通过连续的梯度场提供实时、密集的运动指引,将学习效率提升了数倍。

2. 低迁移鸿沟:势能场作为一种连续的空间关系表示,对传感器噪声和场景细节差异具有天然的平滑作用。这使得从仿真环境到真实世界的策略迁移几乎无需额外的微调。

3. 通用适配性:其原理不依赖于特定的障碍物类型或场景结构。无论是规整的家具还是散落的不规则杂物,都能通过势能场统一编码空间关系,因此具有极强的泛化能力。

对比其他工作:S={g,l,o} 表示“地面(ground)有杂物+两侧(lateral)有阻挡+头顶(overhead)有吊灯”的全空间约束。

总结

HumanoidPF的核心价值,在于为机器人理解复杂环境构建了一套通用的“空间关系语言”。它将晦涩的空间感知数据,转化为了直观的运动指引,从而让避障这项关键技能,从依赖“低效试错”进化到近乎“本能反应”。

随着这项技术的进一步完善,未来的人形机器人有望像人类一样,在杂乱无章的房间中灵活穿梭,自主完成家务、取物等日常任务,真正融入我们的生活场景。可以说,HumanoidPF的提出,为通用人形机器人实现强大的环境适应能力,奠定了至关重要的基础。

该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷,其中薛晗和张智楷为清华大学学生,指导老师为清华大学助理教授弋力。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策