首尔大学最新研究:虚拟人通过视频学习实现精准手部操控
要教会机器人完成“拧开瓶盖”这类灵巧操作,传统方法依赖高精度动作捕捉数据,成本高昂且难以规模化。首尔大学视觉计算实验室与RLWRLD联合团队在2026年4月发布的一项预印本研究(arXiv:2604.20841),提出了一种颠覆性的替代方案:DeVI(Dexterous Video Imitation)框架。该框架仅需一段由AI生成的2D视频,就能驱动虚拟人在物理仿真中学会复杂的操控技能。
DeVI的工作逻辑清晰高效:首先,用文字指令(如“拿起可乐罐喝一口”)驱动视频生成模型,产出视觉合理的2D动画。接着,从视频中解析出人体动作与物体运动信息。最后,利用强化学习在仿真环境中训练虚拟人,使其精准复现该动作。这一流程的核心价值在于,它绕过了对昂贵3D动作捕捉数据的依赖,直接利用视频蕴含的视觉常识来指导物理学习,为处理手与物体间精细交互提供了新路径。
一、虚拟人动作学习的核心挑战
在物理仿真中训练虚拟人执行任务,本质是一个高维控制问题。虚拟人模型(如SMPL-X)包含数十个身体与手部关节,控制系统需为每个关节生成精确的运动指令。学习“抓起苹果咬一口”这类任务的关键,在于获得高质量的“参考目标”——一套时序上精确、物理上可行的姿态序列。
传统方案面临两难:动作捕捉数据质量高但成本昂贵、多样性有限,且难以捕捉精细手部动作;而AI生成的3D动作序列常违反物理规律,手物接触关系错误,无法直接用于仿真。DeVI的突破在于,它发现了视频生成模型的潜力:尽管其输出是2D的、物理精度不高,但其生成的“人-物交互”画面在视觉上高度合理。DeVI的目标,正是将这种“视觉合理性”提取并转化为可驱动物理仿真的有效信号。
二、生成视觉合理的教学视频
DeVI流程始于一个定义好的3D仿真场景。为提高视频生成模型的理解度,研究团队为虚拟人模型添加了外观纹理,使其渲染图像更接近真人。随后,系统从预设的16个摄像机位中,筛选出能同时清晰捕捉双手和目标物体的视角。
准备好场景截图和遵循“用[哪只手][如何操作][什么物体]”格式的文字提示后,二者被输入视频生成模型。约10分钟后,一段逐帧的2D教学视频便准备就绪,成为后续分析的原始素材。
三、混合模仿目标:3D人体与2D物体的协同
从视频中提取可靠的“参考目标”是DeVI的技术核心,其方案被称为“混合模仿目标”。这一设计源于一个现实:从单目视频中估计人体的3D姿态,与估计物体的6D位姿(3D位置+3D朝向),难度截然不同。
对于人体姿态,团队结合使用GVHMR和HaMeR工具,分别估计全身姿态与精细手部姿态,拼接后即可获得高质量的3D人体动作序列。
对于物体,精确估计其6D位姿极为困难,视频中的遮挡、光照变化及生成模型本身的透视误差会引入巨大噪声。对此,团队采取了更务实的策略:放弃追求物体的3D位姿,转而直接追踪其在2D画面中的运动轨迹。通过技术手段追踪物体表面特征点的2D位置变化,虽然损失了深度信息,但已能有效约束物体的运动方向和相对距离。
这种“人体用3D,物体用2D”的混合策略,在实验中表现优于使用噪声6D位姿的传统方法。2D轨迹作为一种“软约束”,为强化学习提供了更宽松、更易优化的搜索空间。
四、视觉HOI对齐:确保真实的接触
从视频中重建的3D人体姿态存在一个关键问题:重建的手在3D空间中可能与物体并未实际接触,尽管在2D画面上看起来是接触的。
为解决此问题,团队引入了“视觉HOI(人-物交互)对齐”优化步骤。该步骤会精细调整身体上半部分(特别是手臂和手部)的姿态,使其同时满足三个条件:其2D投影与视频中的关键点对齐;动作在时间上平滑连贯;并且,在序列的至少一帧中,指定的手部关节能根据文字提示(如“用左手”)真正接触到物体表面。经过优化,最终得到的3D人体参考动作兼具视觉对齐性与物理真实性。
五、混合追踪奖励:驱动策略学习
训练阶段采用强化学习,虚拟人通过试错获得“混合追踪奖励”,该奖励由三部分相乘构成:
1. 人体追踪奖励:衡量虚拟人动作与3D人体参考姿态在关节位置、速度、旋转等方面的差异,尤其关注手部误差。 2. 物体追踪奖励:衡量物体在画面中的2D投影位置是否与从视频提取的2D轨迹匹配。 3. 接触奖励:引导虚拟人在正确时机与物体接触。接触时机从视频中自动推断:当物体开始运动时判定为接触发生;当物体与手均静止时,则根据状态推断。在应有接触的帧,奖励函数会鼓励虚拟人施加足够的握力。
工程上,团队使用4096个并行仿真环境加速训练,并设计了巧妙的初始化与早停机制,将一段约8秒(250帧)视频的训练时间控制在20小时左右。
六、性能评估:超越依赖3D数据的方法
研究团队在包含精确3D动作捕捉数据的GRAB数据集上进行了基准测试。他们将3D数据的2D投影作为DeVI的输入,与PhysHOI、SkillMimic、InterMimic这三个依赖完整3D数据的先进方法进行对比。
结果显著:在衡量动作还原精度的MPJPE(平均每关节位置误差)指标上,DeVI全面领先。例如,相比性能最佳的InterMimic,DeVI将全关节MPJPE从91.14毫米降至41.56毫米,物体位移误差从91.47毫米降至32.36毫米。这证明,使用信息量更少的2D软约束,反而能引导出更优的物理策略。
消融实验证实了各组件的重要性:移除2D物体追踪奖励会导致性能骤降;而“视觉HOI对齐”步骤则显著提升了手物接触的精度。
七、扩展应用:多物体与动作泛化
DeVI框架展现了出色的泛化能力。在多物体场景(如“用右手把煎锅放到电磁炉上”)中,视频生成模型能自动理解物体间关系,生成合理交互,并由虚拟人成功复现。
在动作多样性方面,对同一场景输入不同文字提示(如“用左手捡起苹果”与“用右手捡起西红柿”),DeVI能生成符合常识的不同动作路径。这种灵活性是依赖固定动作库的方法无法实现的。
针对20种形状、重量各异的物体(奖杯、相机、锅等),DeVI生成的动作也表现出与物体特性相符的交互方式,例如双手持重锅、手指包裹相机机身等,成功将视频模型的“视觉常识”转化为了可执行的物理动作。
八、当前局限与未来方向
研究团队也指出了DeVI当前的两个主要局限:
第一,视频生成模型对透视关系的处理有时不完美,可能导致深度估计误差,影响需要精确放置的动作(如将棒球放入小杯)。未来引入多视角视频生成可能缓解此问题。
第二,基于2D像素运动自动估计接触时机的精度有限。当手在深度方向接近物体而2D投影变化不大时,可能产生误判,导致“突然抓握”等不自然动作。未来需要更精细的接触感知方法。
总体而言,DeVI的成功源于其“扬长避短”的设计哲学:结合成熟的3D人体姿态估计与更易获取的2D物体轨迹,在缺乏高质量3D数据的情况下取得了更优效果。它为机器人技能学习开辟了新思路,未来机器人或许仅需从海量文本描述生成的“教学视频”中学习新技能。尽管目前仍局限于桌面场景且训练耗时较长,但其展现的可能性极具前景:未来,或许只需对家用机器人说“帮我把苹果放进果篮”,它就能自主观看并学会完成任务。
Q&A
Q1:DeVI框架需要准备哪些输入才能运行?
A:DeVI需要三项输入:一个包含SMPL-X格式3D人体和目标物体3D网格模型的初始场景;一个描述动作的文字提示词;以及一个预训练好的视频生成模型。整个过程无需任何动作捕捉数据或手工标注的3D演示。
Q2:DeVI的“混合模仿目标”为什么要把人体用3D信号、物体用2D信号这样分开处理?
A:根本原因在于两者技术成熟度的差异。从单目视频估计人体3D姿态已相对可靠,而估计物体的精确6D位姿则噪声大、难度高。实验表明,使用2D物体轨迹作为奖励信号,比使用带噪声的6D位姿约束效果更好,因为它提供了一种更宽容、更易于策略优化的“软约束”。
Q3:DeVI和让机器人直接模仿人手视频的方法有什么本质区别?
A:核心区别在于,DeVI在物理仿真中通过强化学习训练出的是“闭环”控制策略。虚拟人能根据实时物理状态(如物体滑动、位置偏差)动态调整动作,具备应对扰动的鲁棒性。而直接模仿视频轨迹是“开环”回放,无法适应环境变化。此外,DeVI专门针对多指灵巧手设计,能处理复杂的手部操控,而非简单的夹爪动作。
