清华赋能机器人避障：像成龙一样灵活穿梭的智能家居助手

2026-05-16阅读 0热度 0

清华

在堆满杂物的客厅中自如行动：需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的狭窄缝隙。这对人类而言是近乎本能的动作，但对于人形机器人，却是一项集环境感知、动作规划与实时避障于一体的复杂挑战。

长期以来，传统强化学习方法将机器人的避障学习困在“低效试错”的循环中。这些方法通常在碰撞发生后才提供惩罚信号，迫使机器人经历大量失败才能摸索出安全路径，学习效率低下。更深层的问题是，直接处理来自激光雷达或摄像头的原始高维数据，机器人难以快速解析“自身与障碍物的空间关系”——例如，头部是否会撞到吊灯，腿部能否顺利跨过书本。现有技术大多针对单一类型障碍物进行优化，例如仅处理地面凸起或高空遮挡，难以应对真实家居环境中“地面有杂物、两侧有阻挡、头顶有吊灯”这种全空间约束的复合场景。

近期，清华大学与北京银河通用机器人（Galbot）合作的研究，为人形机器人带来了全新的“避障直觉”。这项名为HumanoidPF（人形势能场）的技术，将机器人与障碍物之间的空间关系编码为一个连续的梯度场。这相当于为机器人安装了一个无形的导航仪，通过场中“力”的引导，机器人能够自主选择安全路径，自然而然地完成弯腰、抬腿、侧身等灵活动作，从而在复杂的室内场景中实现无碰撞穿梭。

其核心突破在于，它使机器人摆脱了对“碰撞后惩罚”这一被动学习模式的依赖，转而通过前瞻性的环境引导，将避障转化为一种近乎“本能”的反应。这显著提升了人形机器人在非结构化真实场景中的实用性与可靠性。

• 论文标题：Collision-Free Humanoid Traversal in Cluttered Indoor Scenes

• 相关论文：https://arxiv.org/abs/2601.16035

• 项目主页：https://axian12138.github.io/CAT/

• GitHub：https://github.com/GalaxyGeneralRobotics/Click-and-Traverse

一、传统避障，困在“低效试错”里

在堆满杂物的客厅中穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝，这对人类而言轻而易举。但对机器人来说，却是融合环境感知、动作规划与碰撞规避的复杂挑战。

传统强化学习方法仅在碰撞发生时给予惩罚，机器人需要反复试错才能摸索出安全路径，学习效率极低。同时，直接处理激光雷达、摄像头的原始高维数据，机器人难以快速识别“自身与障碍物的空间关系”，例如“头部是否会撞到吊灯”或“腿部能否跨过书本”。现有方法多针对单一类型障碍物（如地面凸起或高空遮挡）进行优化，无法有效应对“地面有杂物、两侧有阻挡、头顶有吊灯”这种全空间约束的复合场景。

清华大学与Galbot团队提出的HumanoidPF（人形势能场），为机器人赋予了“避障直觉”。该技术将机器人与障碍物的空间关系编码为连续的梯度场，如同一个无形的“力场”引导机器人自主选择安全路径，无需复杂计算即可完成弯腰、抬腿、侧身等灵活动作，成功实现复杂室内场景的无碰撞穿梭。

其核心优势在于：不再让机器人依赖“碰撞后惩罚”的低效试错模式，而是通过前瞻性的环境引导，使避障成为一种“本能反应”，大幅提升了人形机器人在真实家居场景中的实用价值。

二、HumanoidPF：为机器人安装“避障导航仪”

HumanoidPF的灵感源于经典的人工势能场概念，但针对人形机器人复杂的多关节结构进行了关键性重构。简而言之，它将目标点视为“吸引力”，将障碍物视为“排斥力”，两者叠加形成一个连续的梯度场。这个场虽不可见，却能为人形机器人的每个身体部位提供明确的运动指引。

1. 构建HumanoidPF：用“力场”编码空间关系

HumanoidPF通过吸引力场和排斥力场的叠加，生成全局导航梯度场，其核心公式如下：

• 吸引力场（引导向目标）：

这里的 d_geo(x, g) 是关键，它代表机器人身体部位x到目标点g的最短无碰撞路径（测地线距离）。这意味着引导力是沿着避开障碍物的曲线前进，而非不切实际的直线穿越。

• 排斥力场（远离障碍物）：

这部分基于障碍物的带符号距离场。原理直观：距离障碍物越近，产生的排斥力就越强，从而有效避免碰撞。

• 最终引导场（合成吸引力与排斥力）：

最终合成的梯度场，其方向指示了机器人身体部位当前最优的运动方向——既要远离障碍物，又要朝着目标点前进。

HumanoidPF示意图：左图为势能场2D示意图（红色为障碍物排斥区，蓝色为目标吸引力区）；右图为运动方向分布2D示意图，颜色越深表示该方向越安全，引导机器人自主选择最优路径。

2. 适配人形机器人：优先级加权，避免身体部位“打架”

人形机器人拥有头、躯干、四肢等多个独立部位，直接应用统一的势能场可能导致运动指令冲突——例如，左手需要向左躲，右手却需要向右躲。为了解决这个问题，HumanoidPF引入了精巧的优先级加权机制：

• 核心部位优先：像骨盆这样的核心躯干部位被赋予更高的权重，以确保机器人整体的运动方向稳定一致；四肢的权重则相对较低，从而能灵活地配合核心躯干的运动进行调整。公式如下：

• 危险部位加权：根据身体部位与障碍物的实时距离d(x_k)和该部位的运动速度v_k，动态提升处于危险中的部位的权重。公式如下：

这意味着，哪个部位离障碍物越近、运动速度越快，它的避障需求就越紧迫，系统会优先处理其规避动作。

最终的引导场由下式决定：

这套机制确保了机器人全身的运动协调一致，避免了内部指令的“打架”。

3. 双管齐下：让避障学习更高效

HumanoidPF并非孤立存在，它通过“感知输入+奖励引导”双重方式，无缝融入强化学习训练流程，从而大幅提升学习效率：

• 作为感知输入：系统在机器人的13个关键身体部位（包括头、胸、骨盆及四肢关节等）实时查询梯度场向量。这些向量构成了一个紧凑而高效的环境感知特征，让机器人能直接“感受”到每个部位应该如何移动。

• 作为奖励引导：将梯度场指示的理想运动方向，建模为冯·米塞斯-费舍尔分布。通过设计奖励函数，鼓励机器人实际做出的动作与这个理想方向对齐。公式如下：

其中，是引导方向，是方向集中度（核心部位集中度更高），是机器人实际运动方向。

这种设计提供了密集且前瞻性的奖励信号。机器人无需等到“撞了南墙”才得到反馈，而是在整个运动过程中都能获得实时指导，学习效率自然成倍提升。

整体技术 pipeline：左：HumanoidPF构建及在学习中的双重作用（感知输入+奖励引导）；右：混合场景生成与真实部署流程，从仿真训练到“点击导航”实际应用。

三、拓展训练：混合场景生成，让机器人“见多识广”

要让机器人从容应对真实世界的千变万化，必须在多样化的场景中对其进行训练。为此，研究团队提出了一套混合场景生成策略，显著提升了学习策略的泛化能力：

1. 真实场景裁剪：从3DFRONT等真实室内数据集中，裁剪出5m×5m大小的场景块，保留家具、家电等真实障碍物的布局和形态。

2. 程序化障碍物生成：通过算法人工生成包含“地面凸起、两侧阻挡、高空悬挂”等全空间约束的挑战性场景。甚至引入旋转、噪声扰动，来模拟现实中散落的书本、倾斜的盒子等不规则障碍物。

3. 课程学习：采用由易到难的训练方式。从仅包含单一障碍物的简单场景开始，逐步过渡到布满多类型障碍物的复杂复合场景，让机器人循序渐进地掌握避障技能。

通过这种“虚实结合”的训练方式，机器人得以见识各种“弯腰躲吊灯、抬腿跨杂物、侧身挤窄缝”的复合难题。当它在真实环境中遇到类似情况时，便能快速调用经验，做出恰当反应。

避障实测场景：（a）8种典型测试场景的避障行为；（b）程序化生成的复杂障碍物场景；（c）真实世界“弯腰-跨障”复合任务；（d）动态干扰下的避障表现，机器人能应对物体移动的突发情况。

四、实测：灵活应对8类场景

HumanoidPF在Unitree G1人形机器人上进行了全面测试。无论是在仿真环境还是真实世界中，都展现出了卓越的避障能力。

4. 仿真测试：8类场景成功率超90%

在精心设计的“弯腰-跨障”、“侧身-弯腰”、“多障碍物连续避障”等8类复杂场景中，基于HumanoidPF的方法成功率均超过90%。这一成绩远高于ASTraversal（28.1%-82.1%）和Humanoid Parkour（33.3%-88.7%）等基线方法。

特别是在最具挑战性的“侧身-弯腰-跨步”场景中——这要求机器人同时规避来自两侧和上方的障碍物——HumanoidPF仍取得了86.6%的成功率，大幅领先于其他基线，充分证明了其处理全空间约束的强悍能力。

8类场景避障性能对比：HumanoidPF（最后一行）在所有场景中均实现最高成功率（SR%）和最小距离误差（DE(m)），优势显著。

5. 真实世界：“点击导航”轻松穿梭

研究团队进一步将训练好的策略部署为一套“点击导航（Click-and-Traverse）”系统。用户只需在构建的环境地图上点击目标位置，机器人便会通过激光雷达感知环境、构建实时地图、计算HumanoidPF，并自主规划路径完成穿梭，全程无需人工遥控。

在真实的室内测试中，机器人成功完成了多项任务：

• 弯腰避开高度仅0.4米的低矮茶几；
• 抬腿跨过15厘米高的书本；
• 侧身挤过宽度仅0.8米的狭窄通道；
• 流畅应对“弯腰+跨障”的复合任务，全程稳定且无碰撞。

6. 泛化与鲁棒性：应对未知场景和动态干扰

• 零样本泛化：在从未训练过的、由艺术家设计的复杂场景（包含真实家具和不规则障碍物）中，经过混合场景训练的模型，在“简单场景”下成功率高达95.2%，在“复杂场景”下也达到了66.7%。这远高于仅使用真实场景数据训练的基线模型。

• 动态干扰应对：在机器人移动过程中，人为地移动障碍物。机器人能够实时更新HumanoidPF，并迅速调整运动轨迹以避免碰撞，展现了强大的环境适应性和鲁棒性。

混合场景生成的泛化性能：加入高难度程序化场景训练后（最后一行），机器人在未知复杂场景的成功率从1.2%提升至66.7%，泛化能力大幅提升。

五、关键优势：为什么HumanoidPF如此高效？

总结来看，HumanoidPF的高效性源于以下几个核心优势：

1. 前瞻性引导：摒弃了被动的“碰撞后惩罚”机制，通过连续的梯度场提供实时、密集的运动指引，将学习效率提升了数倍。

2. 低迁移鸿沟：势能场作为一种连续的空间关系表示，对传感器噪声和场景细节差异具有天然的平滑作用。这使得从仿真环境到真实世界的策略迁移几乎无需额外的微调。

3. 通用适配性：其原理不依赖于特定的障碍物类型或场景结构。无论是规整的家具还是散落的不规则杂物，都能通过势能场统一编码空间关系，因此具有极强的泛化能力。

对比其他工作：S={g,l,o} 表示“地面(ground)有杂物+两侧(lateral)有阻挡+头顶(overhead)有吊灯”的全空间约束。

总结

HumanoidPF的核心价值，在于为机器人理解复杂环境构建了一套通用的“空间关系语言”。它将晦涩的空间感知数据，转化为了直观的运动指引，从而让避障这项关键技能，从依赖“低效试错”进化到近乎“本能反应”。

随着这项技术的进一步完善，未来的人形机器人有望像人类一样，在杂乱无章的房间中灵活穿梭，自主完成家务、取物等日常任务，真正融入我们的生活场景。可以说，HumanoidPF的提出，为通用人形机器人实现强大的环境适应能力，奠定了至关重要的基础。

该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷，其中薛晗和张智楷为清华大学学生，指导老师为清华大学助理教授弋力。