哈工大团队首创单目视频手物交互重建技术,精准解析复杂互动
这项由哈尔滨工业大学与上海交通大学联合主导的研究成果,已正式收录于2026年计算机视觉领域顶级会议论文集,论文预印本编号为arXiv:2603.25791v1。研究人员与同行可通过此编号查阅论文全文。
观察一个人用剪刀剪纸或翻开笔记本电脑屏幕,人类视觉系统能瞬间解析手部精细动作、物体运动轨迹及两者协同关系。但对计算机视觉而言,精确重建这种动态三维交互,长期是一个极具挑战性的难题。哈尔滨工业大学与上海交通大学的研究团队近期提出的ArtHOI系统,实现了关键突破:仅需输入一段普通单目视频,即可完整重建出手部与可活动物体之间复杂互动的三维时序模型。
该研究的核心突破在于,ArtHOI是全球首个能够从单目视频中,全自动重建手部与关节化物体(如剪刀、眼镜、笔记本电脑)互动全过程的系统。此前方案大多局限于静态物体,或依赖预先的多视角物体扫描,严重制约了实际应用。ArtHOI则如同一位三维场景推理专家,仅依据单视角视频线索,便能逆向推导出完整的、物理合理的交互过程。
解码“无声”交互:三维理解的挑战
研究团队面临的挑战是多维度的:系统需同步完成目标检测与分割、物体三维结构恢复、部件级运动轨迹追踪,以及精确的手物接触关系判定。这相当于要求算法在未见过实物的情况下,仅通过观察使用视频,不仅推断出物体的三维形态与关节结构,还需理解其操作机理与手部操控的动力学关系。
协同智能:“多专家”模型的集成策略
为解决这一复杂问题,团队采用了集成化“多专家”模型策略。他们整合了多个预训练的基础模型,分别专精于图像生成三维、深度估计、手部姿态估计等不同子任务。然而,简单堆叠模型会导致输出不一致。ArtHOI的关键创新在于引入了两项核心技术,以高效协调各“专家”的输出。
第一项是自适应采样优化技术。当基础模型生成一个尺度与位置未知的物体三维雏形后,ASR技术通过迭代采样与优化,将三维模型投影至视频帧,并与提取的深度线索及物体轮廓进行比对,从而精准校准物体的绝对尺寸与空间位姿。
第二项技术创新性地引入了多模态大语言模型进行接触推理。传统几何方法难以稳定判断细微的接触状态。研究团队利用大语言模型对场景进行语义推理,回答“右手拇指是否与剪刀柄接触”或“接触力主要来自哪几个手指”等问题,从而生成更符合物理常识与人类行为模式的接触约束。
重建管线:从视频到三维动画
ArtHOI的工作流程类似于高保真三维动画的自动生成管线。
预处理阶段,系统检测视频中的手部与物体,估算场景深度,并生成移除手部区域的物体掩码视频,以改善被遮挡部分的可见性。
在物体重建阶段,系统选取关键帧,利用生成式模型创建物体的初始三维网格。随后,ASR技术启动,通过优化使三维网格的投影与视频中的物体轮廓及估计深度达到最佳匹配,从而确定其精确尺度和位姿。
运动追踪阶段致力于恢复物体的关节运动。系统将物体分割为多个可动部件,并利用密集光流跟踪技术估计每一帧中各部件的运动。通过引入时序平滑约束,系统能有效处理遮挡,确保运动轨迹的连贯性与自然度。
最后的手物对齐阶段是整个管线的点睛之笔。系统独立重建每帧的手部姿态,并利用大语言模型推断的手物接触关系作为软约束,对三维手部模型与物体模型进行联合优化,确保手指与物体表面贴合,避免穿透或悬浮等物理不合理现象。
性能评估与应用潜力
为全面评估系统,团队构建了两个新基准数据集:ArtHOI-RGBD包含由深度相机拍摄的五个操作序列;ArtHOI-Wild则包含八个来自网络的真实场景手机视频,更具挑战性。
实验数据证实了系统的优越性。在物体重建精度上,ArtHOI在所有对比方法中取得了最低的平均误差。例如,在耳机操作序列中,其重建误差低至8.12毫米。值得注意的是,即使与依赖物体先验扫描的方法相比,ArtHOI也展现出可比甚至更优的性能。
在接触关系判断上,基于大语言模型的推理方法实现了88.58%的接触状态识别准确率,误报率控制在11.20%。这一精度对于生成物理可信的重建结果至关重要。
消融实验进一步验证了各模块的必要性。移除ASR技术会导致物体位姿估计成功率从100%大幅下降;而放弃大语言模型接触推理,仅依赖几何启发式规则,则在复杂真实场景下出现显著的准确率滑坡。
此项技术拥有广泛的应用前景。在机器人领域,它可用于从人类演示视频中进行技能学习;在增强现实应用中,可实现高保真的虚实交互;在人机交互与工效学分析中,则为理解人类操作行为提供了量化分析工具。
当前局限与未来演进
系统目前主要针对具有明确运动结构的关节化物体,对于高度非刚性物体或流体的处理能力有限。此外,计算效率有待提升,处理一段百帧视频约需一小时。研究团队指出,通过算法轻量化与并行计算优化,处理速度有望获得数量级提升。
从方法论上看,ArtHOI代表了一种有效的趋势:通过精心设计的协调框架,集成多个领域专家模型,以解决单一模型难以处理的复杂跨模态问题。将大语言模型的语义推理能力引入传统几何视觉任务,也为多模态理解开辟了新路径。
本质上,ArtHOI的成功并非源于单一算法的颠覆,而是通过对现有先进组件进行系统性集成与创新性协调,实现了整体性能的突破。其长期目标在于赋予机器接近人类水平的、对复杂三维交互的直观理解能力,这将在机器人学、混合现实及智能交互领域产生深远影响。
Q&A
Q1:ArtHOI系统是什么?
A:ArtHOI是由哈工大与上海交大团队研发的AI系统,它能从单一普通视频中,全自动重建出手部操作可活动物体的完整三维交互序列。这是首个实现单目视频下手与关节物体复杂互动重建的系统。
Q2:ArtHOI系统与传统方法有什么区别?
A:传统方法常需物体3D模板或预先的多视角扫描。ArtHOI仅需一段单目视频,通过集成多个AI基础模型,并创新性地使用自适应采样优化与大语言模型接触推理,实现了无需先验模板的、便捷高效的重建。
Q3:ArtHOI系统的准确率如何?
A:在标准测试中,其物体重建误差可达毫米级(如8.12毫米)。手物接触状态判断准确率达88.58%,误报率为11.20%。与依赖预扫描的方法相比,ArtHOI在便捷性大幅提升的同时,保持了同等甚至更优的重建精度。
