首尔大学最新研究：虚拟人通过视频学习实现精准手部操控

2026-05-15阅读 0热度 0

动作

要教会机器人完成“拧开瓶盖”这类灵巧操作，传统方法依赖高精度动作捕捉数据，成本高昂且难以规模化。首尔大学视觉计算实验室与RLWRLD联合团队在2026年4月发布的一项预印本研究（arXiv:2604.20841），提出了一种颠覆性的替代方案：DeVI（Dexterous Video Imitation）框架。该框架仅需一段由AI生成的2D视频，就能驱动虚拟人在物理仿真中学会复杂的操控技能。

DeVI的工作逻辑清晰高效：首先，用文字指令（如“拿起可乐罐喝一口”）驱动视频生成模型，产出视觉合理的2D动画。接着，从视频中解析出人体动作与物体运动信息。最后，利用强化学习在仿真环境中训练虚拟人，使其精准复现该动作。这一流程的核心价值在于，它绕过了对昂贵3D动作捕捉数据的依赖，直接利用视频蕴含的视觉常识来指导物理学习，为处理手与物体间精细交互提供了新路径。

一、虚拟人动作学习的核心挑战

在物理仿真中训练虚拟人执行任务，本质是一个高维控制问题。虚拟人模型（如SMPL-X）包含数十个身体与手部关节，控制系统需为每个关节生成精确的运动指令。学习“抓起苹果咬一口”这类任务的关键，在于获得高质量的“参考目标”——一套时序上精确、物理上可行的姿态序列。

传统方案面临两难：动作捕捉数据质量高但成本昂贵、多样性有限，且难以捕捉精细手部动作；而AI生成的3D动作序列常违反物理规律，手物接触关系错误，无法直接用于仿真。DeVI的突破在于，它发现了视频生成模型的潜力：尽管其输出是2D的、物理精度不高，但其生成的“人-物交互”画面在视觉上高度合理。DeVI的目标，正是将这种“视觉合理性”提取并转化为可驱动物理仿真的有效信号。

二、生成视觉合理的教学视频

DeVI流程始于一个定义好的3D仿真场景。为提高视频生成模型的理解度，研究团队为虚拟人模型添加了外观纹理，使其渲染图像更接近真人。随后，系统从预设的16个摄像机位中，筛选出能同时清晰捕捉双手和目标物体的视角。

准备好场景截图和遵循“用[哪只手][如何操作][什么物体]”格式的文字提示后，二者被输入视频生成模型。约10分钟后，一段逐帧的2D教学视频便准备就绪，成为后续分析的原始素材。

三、混合模仿目标：3D人体与2D物体的协同

从视频中提取可靠的“参考目标”是DeVI的技术核心，其方案被称为“混合模仿目标”。这一设计源于一个现实：从单目视频中估计人体的3D姿态，与估计物体的6D位姿（3D位置+3D朝向），难度截然不同。

对于人体姿态，团队结合使用GVHMR和HaMeR工具，分别估计全身姿态与精细手部姿态，拼接后即可获得高质量的3D人体动作序列。

对于物体，精确估计其6D位姿极为困难，视频中的遮挡、光照变化及生成模型本身的透视误差会引入巨大噪声。对此，团队采取了更务实的策略：放弃追求物体的3D位姿，转而直接追踪其在2D画面中的运动轨迹。通过技术手段追踪物体表面特征点的2D位置变化，虽然损失了深度信息，但已能有效约束物体的运动方向和相对距离。

这种“人体用3D，物体用2D”的混合策略，在实验中表现优于使用噪声6D位姿的传统方法。2D轨迹作为一种“软约束”，为强化学习提供了更宽松、更易优化的搜索空间。

四、视觉HOI对齐：确保真实的接触

从视频中重建的3D人体姿态存在一个关键问题：重建的手在3D空间中可能与物体并未实际接触，尽管在2D画面上看起来是接触的。

为解决此问题，团队引入了“视觉HOI（人-物交互）对齐”优化步骤。该步骤会精细调整身体上半部分（特别是手臂和手部）的姿态，使其同时满足三个条件：其2D投影与视频中的关键点对齐；动作在时间上平滑连贯；并且，在序列的至少一帧中，指定的手部关节能根据文字提示（如“用左手”）真正接触到物体表面。经过优化，最终得到的3D人体参考动作兼具视觉对齐性与物理真实性。

五、混合追踪奖励：驱动策略学习

训练阶段采用强化学习，虚拟人通过试错获得“混合追踪奖励”，该奖励由三部分相乘构成：

1. 人体追踪奖励：衡量虚拟人动作与3D人体参考姿态在关节位置、速度、旋转等方面的差异，尤其关注手部误差。 2. 物体追踪奖励：衡量物体在画面中的2D投影位置是否与从视频提取的2D轨迹匹配。 3. 接触奖励：引导虚拟人在正确时机与物体接触。接触时机从视频中自动推断：当物体开始运动时判定为接触发生；当物体与手均静止时，则根据状态推断。在应有接触的帧，奖励函数会鼓励虚拟人施加足够的握力。

工程上，团队使用4096个并行仿真环境加速训练，并设计了巧妙的初始化与早停机制，将一段约8秒（250帧）视频的训练时间控制在20小时左右。

六、性能评估：超越依赖3D数据的方法

研究团队在包含精确3D动作捕捉数据的GRAB数据集上进行了基准测试。他们将3D数据的2D投影作为DeVI的输入，与PhysHOI、SkillMimic、InterMimic这三个依赖完整3D数据的先进方法进行对比。

结果显著：在衡量动作还原精度的MPJPE（平均每关节位置误差）指标上，DeVI全面领先。例如，相比性能最佳的InterMimic，DeVI将全关节MPJPE从91.14毫米降至41.56毫米，物体位移误差从91.47毫米降至32.36毫米。这证明，使用信息量更少的2D软约束，反而能引导出更优的物理策略。

消融实验证实了各组件的重要性：移除2D物体追踪奖励会导致性能骤降；而“视觉HOI对齐”步骤则显著提升了手物接触的精度。

七、扩展应用：多物体与动作泛化

DeVI框架展现了出色的泛化能力。在多物体场景（如“用右手把煎锅放到电磁炉上”）中，视频生成模型能自动理解物体间关系，生成合理交互，并由虚拟人成功复现。

在动作多样性方面，对同一场景输入不同文字提示（如“用左手捡起苹果”与“用右手捡起西红柿”），DeVI能生成符合常识的不同动作路径。这种灵活性是依赖固定动作库的方法无法实现的。

针对20种形状、重量各异的物体（奖杯、相机、锅等），DeVI生成的动作也表现出与物体特性相符的交互方式，例如双手持重锅、手指包裹相机机身等，成功将视频模型的“视觉常识”转化为了可执行的物理动作。

八、当前局限与未来方向

研究团队也指出了DeVI当前的两个主要局限：

第一，视频生成模型对透视关系的处理有时不完美，可能导致深度估计误差，影响需要精确放置的动作（如将棒球放入小杯）。未来引入多视角视频生成可能缓解此问题。

第二，基于2D像素运动自动估计接触时机的精度有限。当手在深度方向接近物体而2D投影变化不大时，可能产生误判，导致“突然抓握”等不自然动作。未来需要更精细的接触感知方法。

总体而言，DeVI的成功源于其“扬长避短”的设计哲学：结合成熟的3D人体姿态估计与更易获取的2D物体轨迹，在缺乏高质量3D数据的情况下取得了更优效果。它为机器人技能学习开辟了新思路，未来机器人或许仅需从海量文本描述生成的“教学视频”中学习新技能。尽管目前仍局限于桌面场景且训练耗时较长，但其展现的可能性极具前景：未来，或许只需对家用机器人说“帮我把苹果放进果篮”，它就能自主观看并学会完成任务。

Q&A

Q1：DeVI框架需要准备哪些输入才能运行？

A：DeVI需要三项输入：一个包含SMPL-X格式3D人体和目标物体3D网格模型的初始场景；一个描述动作的文字提示词；以及一个预训练好的视频生成模型。整个过程无需任何动作捕捉数据或手工标注的3D演示。

Q2：DeVI的“混合模仿目标”为什么要把人体用3D信号、物体用2D信号这样分开处理？

A：根本原因在于两者技术成熟度的差异。从单目视频估计人体3D姿态已相对可靠，而估计物体的精确6D位姿则噪声大、难度高。实验表明，使用2D物体轨迹作为奖励信号，比使用带噪声的6D位姿约束效果更好，因为它提供了一种更宽容、更易于策略优化的“软约束”。

Q3：DeVI和让机器人直接模仿人手视频的方法有什么本质区别？

A：核心区别在于，DeVI在物理仿真中通过强化学习训练出的是“闭环”控制策略。虚拟人能根据实时物理状态（如物体滑动、位置偏差）动态调整动作，具备应对扰动的鲁棒性。而直接模仿视频轨迹是“开环”回放，无法适应环境变化。此外，DeVI专门针对多指灵巧手设计，能处理复杂的手部操控，而非简单的夹爪动作。