机器人看懂人类双手动作：港中文上交大联合研究重大突破

2026-06-20阅读 0热度 0

机器人

这项研究由ACE Robotics、香港中文大学多媒体实验室（CUHK MMLab）、深圳香港中文大学、上海交通大学及清华大学联合推进，相关论文已于2026年6月正式发表，arXiv编号为2606.17200。

教会机器人一项技能，比想象中苛刻得多。要让机器人学会“抓杯子”，工程师必须手把手引导它重复数百次，每次都要精准记录机械臂的运动轨迹、关节角度和夹爪的闭合力度。这套流程不仅耗时费力，而且成本极高。反观现实世界，每天有数以亿计的人在执行各种家务、烹饪和整理动作，这些行为经由摄像头大量记录，构成了一个规模庞大的视频数据资源池。

然而，人类手部与机器人末端执行器之间存在根本性差异：人手有五根指节、灵活的腕关节，而机器人多采用刚性金属夹爪；人类视频通常以第一人称视角捕捉，其动作坐标系与机器人实验室的设定迥异；从视频图像中“估算”出的肢体运动轨迹天然带有噪声和偏差，直接将这种含噪数据灌输给机器人，很容易培养出不良的操作习惯。

研究团队将这一挑战分解为两个核心问题：一是如何让人类视频与机器人数据在表征层面实现“统一协议”，二是如何在联合训练过程中，防止含噪的人类动作数据污染机器人已经习得的精准策略。他们给出的解决方案名为ACE-Ego-0——一个能够将人类双手动作视频与多平台机器人操作数据整合进同一训练体系的框架。最终，该框架在多个权威基准测试中刷新了最佳成绩，并在真实双臂机器人平台上展现了令人印象深刻的实操能力。

一、机器人技能习得为何如此困难，而人类视频又为何被视为“数据宝藏”

要理解这项研究试图解决的问题，可以设想一个场景：你需要教一个从未进过厨房的人学习烹饪。最直接的方式是站在他身旁，一步步进行现场演示——这基本对应了当前机器人学习中最常用的“遥控示教”模式：工程师通过操纵杆手动控制机器人执行任务，同时逐帧记录高精度的动作数据。这种方法效果虽好，但成本高昂：必须占用一台机器人、一间实验室、一名熟练的操作员，反复执行同一套动作。

现在换一种思路：将全球所有的烹饪视频收集起来，让这个人通过大量观看先建立起对“烹饪感觉”的直观理解，再辅以少量的亲身实践来打磨细节。这正是这篇论文所探索的路径。互联网上存在着海量的第一人称（即从拍摄者自身视角录制）人类操作视频——无论是Ego4D、EPIC-KITCHENS还是EgoDex这些公开的大规模数据集，都记录了数千小时人们在厨房、家庭和工作室中用双手操作物体的真实场景。这些数据的覆盖范围远超任何机器人实验室所能采集的数据量，且采集成本几乎可以忽略不计。

然而，直接利用这些视频训练机器人存在三大障碍。第一是坐标系差异：机器人记录的是自身相对于基座或世界坐标原点的位置，而人类视频中的手部运动则相对于摄像头或人体本身。第二是“身体结构”差异：人类拥有肩、肘、腕和五根手指，而机器人可能只有一个简单的夹爪，或完全不同的关节构型。第三是数据质量差异：通过视觉算法从视频中“推测”出的手部三维位置，天然比传感器直接记录到的机器人关节数据噪声更大、误差更多。

在ACE-Ego-0问世之前，已有一些研究尝试将人类视频用于机器人训练，但它们要么绕开了直接的动作层级学习（只学习“观察”而非“执行”），要么简单粗暴地将含噪的人类动作估计值与高精度的机器人传感器数据等量齐观。这就像让一个偶尔会犯错的口头讲师与一本精准无误的教科书以相同权重共同授课，结果往往造成认知混淆。

二、统一“语言”：三个维度的对齐策略

坐标系与身体结构的对齐：转化为“头部摄像头视角”公共基准

ACE-Ego-0解决坐标系和身体结构差异的核心思路，可以借助“翻译”的比喻来理解。不同国家的人使用不同语言，但若大家都将各自的意思翻译成英语，就能在同一张桌上交流。这里的“英语”就是头部摄像头坐标系：无论原始数据源自何种机器人平台或人体视频，所有动作轨迹均被统一转换到“从头部摄像头向外看”的视角中进行描述。

对于机器人数据，这一转换相对直接：研究团队利用摄像头标定参数（描述摄像头位置和朝向的数学模型），将每一帧中机器人末端执行器的位置与朝向，从机器人基座坐标系转换至摄像头坐标系。这种处理就像将一张使用北京地图标注的位置，转换为使用上海地图标注的同一地点——坐标数值变了，但描述的是同一个物理事实。这样做的好处是：当同一套训练好的模型部署到一台新机器人上时，只需提供新机器人的摄像头安装参数即可直接应用，无需重新训练整个模型。

对于人类视频，挑战更大，因为人手并非机器人的末端执行器（工具手）。研究团队采用了一个巧妙的替代方案：将手腕关节定义为“虚拟末端执行器”的原点，并利用手掌平面以及从腕部指向手指的方向向量，构建一个稳定的手部局部坐标系，再将其转换为与机器人动作表征相同的格式。手指的开合程度则通过拇指尖到掌心之间的距离来近似模拟机器人夹爪的开合度，并进一步缩放到机器人夹爪实际的物理行程范围之内。这样，人类手部的运动就被“翻译”成了与机器人数据格式完全一致的动作向量。

最终，无论数据来自机器人还是人类视频，每一条记录都被表示为一个22维的双臂动作向量：左手和右手各11维，包含3维位置、6维朝向（采用一种在神经网络训练中更为稳定的连续旋转表示方法）、1维夹爪开合度，以及1维表征“该手臂是否处于激活状态”的标志位。这个标志位的存在，使得模型能够同时处理仅需单手的任务以及需要双臂协调配合的任务，而不会产生混淆。

时间维度的统一：让所有数据以“秒”而非“帧”作为思考基准

解决了空间维度的统一问题后，还有一个极易被忽视的时间维度挑战：不同机器人的控制频率差异很大，有的为10赫兹（每秒控制10次），有的为20赫兹，甚至30赫兹。如果模型统一预测“未来固定N帧”的动作，那么对于10赫兹的数据，N帧仅对应1秒；而对于30赫兹的数据，N帧则对应3秒。这导致同一模型预测的物理时间长度完全不同——就像要求运动员按“跑50步”指令训练，但有人穿大步鞋，有人穿小步鞋，最终跑出的距离差异巨大。

ACE-Ego-0的解决方案是“按物理时间切块”：设定一个固定的目标时间窗口（例如2秒），然后根据每个数据集的控制频率，计算出在这个2秒窗口内应包含的帧数，并据此确定每个数据集的动作预测步长。如此一来，所有数据集预测的都是“未来2秒内的动作”，在时间意义上实现了完全可比。

结构差异的“身份简历”：形态条件化机制

身体结构差异则通过一个名为“形态条件化”的机制进行处理。每个机器人都有一个URDF文件（一种描述机器人关节结构、运动范围和物理尺寸的标准格式文件，相当于机器人的“身份证”），研究团队构建了一个图神经网络编码器，将该URDF文件解析成一个紧凑的“形态令牌”。你可以将这个令牌理解成一份简历，概括了机器人手臂的长度、关节的活动范围、以及与操作最相关的关节信息。对于人类视频，则使用一个可训练的替代嵌入向量来扮演这个角色，该向量在训练过程中自动学习如何描述“人类这种特殊操作者”的特征。这些形态令牌仅注入到动作预测模块中，并不影响视觉语言理解的骨干网络，从而保证了视觉理解能力的通用性。

三、有噪声的导师：可靠性加权的辅助损失函数

解决了表征对齐的问题之后，还需要攻克最关键的一关：如何在训练过程中防止人类视频数据的噪声污染机器人数据所建立的精确控制能力。

研究团队对这个问题进行了十分精细的处理。他们设计了一套名为“可靠性感知训练目标”的机制，其核心思想是：不同来源的数据、不同的动作维度、甚至同一段视频中不同时间点的帧，其可靠性各不相同，因此在训练时也应赋予不同的权重。

具体来说，每一个动作维度都有一个静态的“通道级可靠性先验”：位置信息（手在何处）在三维视觉重建中相对可靠，被赋予满权重1.0；而手腕的旋转方向和手指的开合程度受遮挡影响较大，估计误差更多，因此被赋予极低的权重0.001。这意味着人类视频数据主要在“手朝哪个方向移动”这个层面提供监督信号，而不会干扰机器人已经精确校准的旋转和抓握控制。

除了静态通道权重，还设置了一个动态的“逐帧平滑度权重”：如果某一帧的手部位置相较于前后帧发生突然跳变（超出该数据集统计分布3倍标准差的范围），则说明该帧很可能是追踪失败或估计异常，其权重会被自动压低。更进一步，每个人类视频数据集作为一个整体，拥有一个“数据集级质量先验”，该先验根据该数据集历史上通过质量过滤的帧比例以及轨迹的平滑程度来确定。质量更高的数据集，其整体权重也更高。

这三层加权（通道级、逐帧级、数据集级）相乘，最终得到完整的可靠性权重矩阵。人类视频数据通过这个加权后的Huber损失函数（一种对极端误差更具鲁棒性的损失函数，比均方误差更能抵抗偶发的大误差）提供辅助监督，而机器人数据则采用标准的流匹配损失函数作为主要监督信号。两者权重比例由一个超参数λ来平衡，实验中设定为0.1，即人类辅助损失的权重仅为机器人主损失的十分之一。

这种设计的有效性在后续的消融实验中得到了清晰验证：如果去除可靠性加权，直接让人类视频数据与机器人数据平等地参与训练，平均成功率将从72.8%下降到69.2%，这一跌幅是所有消融项中最大的，直接证明了质量感知加权的必要性。

四、从5929小时原始视频到1478小时“可用训练数据”的处理流水线

除了方法设计，论文还详细描述了将大规模人类第一人称视频转化为可用训练数据的完整工程流程。这条流水线共分为五个阶段，每个阶段都设有明确的过滤逻辑。

第一阶段是数据集筛选与标准化。研究团队从六个公开数据集中选取数据：Ego4D（覆盖全球各类日常活动场景，216.6小时）、EgoExo4D（同步第一人称和第三人称视角的活动数据，10.3小时）、EPIC-KITCHENS-100（精细标注的厨房场景数据，32.3小时）、HOI4D（人物与物体交互的4D数据集，7.2小时）、EgoDex（专注于精细手部动作的大规模数据集，776.8小时）以及Xperience-10M（包含结构化三维四维标注的大规模第一人称数据集，435.7小时）。这六个数据集合计约5929小时。所有数据被统一整理为包含视频片段ID、帧索引、摄像头内参、动作描述文字等标准字段的格式，时长过短（不足4秒）或过长（超过30秒）的片段则被直接丢弃。

第二阶段是视频筛选，目标是在执行计算密集型的三维重建之前，先用轻量级方法去除那些不包含有效操作内容的视频。研究团队将人脸检测置信度作为一个关键过滤指标：如果一段视频中频繁出现清晰的人脸，说明这很可能不是第一人称视角，而是对他人的观察视角，这类视频会被剔除。剩余的视频再通过图像字幕模型进行语义过滤，仅保留那些描述文字中同时包含“操作动词”（如抓取、放置、切割）和“可操作物体名词”（如杯子、刀、盒子）的片段，以确保留下的都是真实的操作行为片段。

第三阶段是三维手部重建，这是技术含量最高的一环。首先，利用SAM3追踪模型在整段视频中稳定地追踪左右手的位置，滤除关键点置信度过低或追踪时长过短的结果。接着，将追踪到的手部区域送入HaMeR三维手部重建模型，逐帧估计手部的三维形状和姿态参数。由于逐帧重建会受到深度模糊、遮挡和时间抖动的影响，还需要进行第三步的全局轨迹优化：采用一个两阶段的数值优化算法，在最小化二维关键点重投影误差的同时加入时间平滑正则化项，使整段轨迹在时间上更加连续和合理。同时，借助VIPE视频三维感知引擎估算出的每帧摄像头位姿，将所有局部重建结果整合到一个一致的世界坐标系下，最后再转回到头部摄像头坐标系中进行存储。

第四阶段是动作参数化，将重建出的手部三维轨迹转换为前面提到的22维统一动作格式，包括位置、朝向的转换以及夹爪开合度的归一化。此处有一个细节：如果一段轨迹中拇指到掌心的距离在整个视频中变化幅度非常小（低于1.5厘米的阈值），说明手部基本保持握紧或张开状态，没有抓握动作发生。这类片段的夹爪状态会被设为固定的中性值，以避免将噪声误当作抓握信号学习进来。

第五阶段是质量控制，应用四道后处理过滤器。完整性过滤器检查数据是否存在缺失值、帧索引是否连续、四元数旋转表示是否归一化。静态过滤器去除那些双手几乎没有移动的片段，因为这些片段不包含有价值的运动信息。尖峰过滤器去除帧间位移突然超出正常范围3倍标准差的片段，这类异常通常是追踪失败的信号。双手过滤器则检查双臂之间的协调性，去除那些双手运动缺乏统计上合理的时序关联或双手距离异常的片段。经过这五个阶段的处理，最终保留了1478小时的有效训练数据，约占原始数据的四分之一。

五、6000小时数据、真实机器人测试：成绩单上的关键数据

ACE-Ego-0的完整预训练数据池超过6000小时，包括1478.9小时包含伪动作标注的人类视频，以及4534.8小时以上由真实传感器记录的机器人和仿真数据。机器人数据部分来自AgiBot Alpha/Beta演示数据（1937.8小时）、Galaxea R1Lite数据（488.1小时）、AgiBot数字世界仿真数据（225.3小时）、RoboCasa桌面操作仿真数据（83.6小时），以及研究团队自行采集的Galbot双臂机器人演示数据（超过1800小时）。

模型架构方面，ACE-Ego-0采用Qwen3-VL-4B-Instruct作为视觉语言主干（负责理解“看到了什么、要做什么”），并搭配一个约6亿参数的流匹配扩散Transformer作为动作专家（负责输出“如何动作”）。预训练在128张A800 GPU上运行了20万步，微调则使用16张A800 GPU完成。

研究团队从三个层面对这套系统进行了评估。

仿真基准评测：RoboCasa与RoboTwin 2.0

在RoboCasa GR1桌面操作基准上，这是一个覆盖24种任务（18种抓放类任务和6种操作铰链物体的任务）的仿真评测平台，采用与人形机器人GR1相同的配置。ACE-Ego-0在24个任务上的平均成功率达到72.8%，超越了此前在该榜单上表现最佳的DIAL方法（70.2%），以及JoyAI-RA（63.2%）、ABot-M0（58.3%）和FLARE（55.0%）。在一些具体任务上，差距尤为显著：例如“将砧板放入纸板箱”这一任务，ACE-Ego-0的成功率为84%，而FLARE为54%、GR00T-N1.6为46.5%；“将盘子叠放到另一个盘子上”的任务，ACE-Ego-0达到了98%的成功率。

在RoboTwin 2.0基准上，这是一个覆盖50种双臂桌面操作任务的评测平台，其特点是具有强场景随机化能力（Easy为干净场景，Hard为包含随机干扰的场景）。ACE-Ego-0在Easy设置下的平均成功率为91.12%，在Hard设置下为90.62%，比此前最好的JoyAI-RA分别高出0.64和1.34个百分点，在抓取、放置、工具使用、双臂协调等各类操作任务上均实现了分布均匀的性能提升。

真实机器人测试：六个任务的平均成功率达到78.3%

真实机器人测试采用了一套ARX双臂平台，头部安装了一个RGB-D摄像头，通过摄像头坐标系下的增量末端执行器命令进行控制。测试涵盖了从简单到复杂的六个任务：抓取购物篮并将茶叶盒放入其中（单臂任务，Pick Tea）、用一只手固定咖啡罐同时用另一只手舀取咖啡粉倒入杯中（双臂紧耦合任务，Scoop Coffee）、将多种物品按品类分拣到对应的收纳箱中（需语义理解，Category Sorting）、一手持簸箕一手用扫帚将积木扫入其中（双臂工具协作，Sweep Cubes）、依次叠放三个碗（需顺序规划，Stack Bowls）、将两双鞋放入鞋盒并合上盖子（长流程任务，Pack Shoes）。每个任务各进行了30次试验，成功的标准是机器人在零人工干预的情况下完成完整流程。

ACE-Ego-0在这六个任务上的平均成功率达到78.3%，比在同等条件下微调的π0.5（71.7%）高出6.6个百分点。与GR00T-N1.7的差距则更为显著：GR00T-N1.7的平均成功率仅为35.6%，在需要大范围横向运动的“扫地积木”任务上几乎完全失败（成功率仅6.7%）。在对手臂协作精度要求最高的“舀咖啡”任务上，ACE-Ego-0的成功率为86.7%，而GR00T-N1.7仅为36.7%，差距高达50个百分点。所有方法在流程最长的“装鞋”任务上，成功率均有所下滑，这表明如何在长流程操作中避免误差积累，仍是整个领域共同面临的挑战。

消融实验：每个组件各自的贡献

消融实验清晰地揭示了每个组件的贡献：移除形态条件化令牌，成功率从72.8%降至70.9%；移除时间对齐动作切块，成功率降至71.7%；移除可靠性感知的人类辅助损失，成功率降至69.2%。在数据层面，仅从QWen初始化权重出发（无任何具身预训练），成功率为65.4%；加入机器人数据预训练后，提升至68.3%；再加入人类视频数据后，进一步提升至72.8%。值得注意的是，人类视频带来的提升（+4.5个百分点）大于机器人数据本身带来的提升（+2.9个百分点），这直接证明了大规模人类视频数据的价值。

论文中还包含一个关于数据稀缺微调的有趣实验：在“扫地积木”任务上，如果微调时仅使用34条机器人演示数据，成功率仅为10%（10次试验中仅成功1次）。可视化分析揭示了原因：34条机器人演示仅覆盖了0.062平方米的末端执行器工作空间，而419段相关的人类视频则覆盖了0.296平方米——是前者的4.8倍。将这419段人类视频加入微调数据后，成功率提升至40%（成功4次），提升了4倍。这表明，即使在微调阶段，人类视频也能有效弥补机器人演示数据覆盖范围不足的问题。

总而言之，ACE-Ego-0在方法论上回应了一个长期悬而未决的工程问题：如何让人类视频与机器人数据在同一训练框架内和谐共存，既能充分利用人类视频的海量数据与多样性，又能防止其噪声拖累机器人数据精心构建的精确控制能力。三重对齐（坐标系、身体结构、时间节奏）加上三层可靠性加权，这套组合方案在仿真环境和真实机器人上都给出了令人信服的答案。

当然，这项研究也触及了一些尚未探索的方向。当前的测试场景主要集中在桌面操作，对于移动机器人、全身人形控制或软性物体操作是否同样适用，尚需进一步验证。数据池中尚未纳入灵巧手或力矩传感器的数据，而这些对于需要精细触觉反馈的任务可能至关重要。此外，人类视频中的旋转信息和手指精细运动在当前框架内仅被赋予了极低的权重，如果未来能够提升视频三维重建的精度，这部分目前被“浪费”的信息有望带来更大的性能增益。对机器人学习领域而言，ACE-Ego-0提供的启示是：廉价的人类行为数据并非只能充当辅助角色，只要妥善处理对齐与质量控制问题，它完全可以成为主力数据源的有力补充。

Q&A

Q1：ACE-Ego-0属于哪种类型的机器人学习框架，它与先前的方法有何主要区别？

A：ACE-Ego-0是一个能够将人类第一人称视频与多平台机器人操作数据统一整合进同一套训练体系中的视觉-语言-动作模型预训练框架。与先前方法的主要区别在于，它同时解决了三个维度的数据异构问题（坐标系、身体结构、控制频率），而非仅处理其中一两个；同时，针对人类视频数据质量较低的现实，它设计了分通道、分步骤、分数据集的三层可靠性加权机制，而不是简单地将含噪的人类数据与高精度机器人数据进行等权重混合训练。

Q2：从人类视频中提取的手部动作轨迹可靠性有多高？既然存在噪声，为何还要将其与机器人数据混合训练？

A：通过视觉算法从视频中估计出的手部三维轨迹确实存在深度模糊、遮挡抖动和估计偏差等问题，其可靠性低于传感器直接记录的机器人数据。但人类视频的核心价值不在于精度，而在于覆盖范围——数千小时的人类操作视频涵盖了机器人演示数据难以触及的长尾场景和动作多样性。ACE-Ego-0通过将位置信息（相对可靠）与旋转/抓握信息（易出现误差）区别对待，并动态下调异常帧的权重，使人类视频仅在其可信的维度上提供监督信号，从而在不污染机器人精确控制能力的前提下，获得覆盖范围上的显著增益。实验证明，加入人类视频后，在RoboCasa基准上的成功率提升了4.5个百分点，是所有数据扩充措施中提升幅度最大的。

Q3：时间对齐动作切块具体解决了什么问题？如果不进行这种对齐，会产生什么后果？

A：不同机器人数据集的控制频率差异很大（范围从10到30赫兹不等）。如果模型统一预测“未来固定N帧”的动作，那么对于低频数据集，N帧可能仅对应0.3秒；而对于高频数据集，N帧却对应3秒。这导致同一个模型预测的物理时间窗口完全不统一。时间对齐动作切块将预测目标改为“未来固定T秒（默认2秒）的动作”，并根据各数据集的帧率计算出对应的帧数，确保所有数据监督的是相同物理时长的运动。消融实验显示，移除这一机制会导致成功率下降1.1个百分点，说明时间不对齐会引入系统性的训练偏差。