RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026

2026-04-24阅读 426热度 426

新框架

一、研究背景

从视频里精准捕捉并重建出人体的3D运动，这事儿听起来就充满挑战，但它确实是计算机视觉领域一个至关重要的研究方向。无论是体育赛事分析、VR/AR体验、人机交互，还是医疗康复训练，都离不开这项技术的支撑。然而，一旦放到真实、复杂的场景里，问题就接踵而至了。

首当其冲的，是身份关联的“掉链子”。多人交互时，频繁的遮挡和快速运动，很容易让系统“脸盲”，发生ID切换，导致后续重建出来的动作前后对不上号。其次，运动轨迹也容易“断片”。视角的剧烈变化或者极端的遮挡，都可能让目标跟丢。第三，重建结果往往“磕磕绊绊”。传统的逐帧处理方式，很难在时间维度上维持三维结构的连贯与稳定。

面对这三大拦路虎，北京理工大学联合华盛顿大学、安徽大学等研究机构，提出了一套面向复杂真实场景的多人三维人体运动恢复新方法，命名为RAM（Recover Any Motion）。这项重量级研究成果，已被计算机视觉顶级会议CVPR 2026接收。

二、核心方法

RAM框架的精妙之处，在于它由四个关键模块协同作战，各司其职，形成了一个解决问题的闭环。

SegFollow 模块（稳定跟踪）

这个模块的核心是引入了基于卡尔曼滤波的运动建模机制。它不再过度依赖容易“变脸”的外观特征，而是将运动一致性信息深度融入目标关联过程。这样一来，即便遭遇严重遮挡或者目标外观发生剧变，系统依然能牢牢锁定身份，从根本上大幅降低了ID切换的发生率。

T-HMR 模块（时序三维重建）

重建不连续怎么办？T-HMR模块给出了答案。它基于一种时间记忆机制，能够从邻近帧中筛选出关键特征，并利用Transformer结构进行跨时间的信息融合。当当前帧信息残缺或充满噪声时，模型可以借助历史上下文，“脑补”出平滑且一致的三维人体结构，有效弥合了帧与帧之间的裂痕。

动作预测模块

针对目标被完全遮挡这种极端情况，RAM专门设置了一个“预言家”。该模块基于历史运动序列对人体动态进行建模，从而预测未来的姿态。当当前帧没有任何观测信息时，就依靠预测结果来维持运动序列的连续性，确保轨迹不会凭空消失。

自适应融合模块

有了当前帧的重建结果，又有了预测结果，该听谁的？自适应融合模块扮演了“决策者”的角色。它对两者进行动态的加权融合——遮挡严重时，更依赖预测；观测清晰时，则更信任重建。这种根据信息可靠性实时调整权重的策略，实现了最终结果的最优融合。

三、亮点总结

亮点一：统一框架打破流水线壁垒

RAM首次将目标跟踪、时序三维重建与动作预测这三个原本割裂的任务，整合到了一个统一的框架内。它从整体视角出发，充分挖掘和利用了跨帧的时序信息，彻底改变了传统串行流水线“各扫门前雪”的局限。这不仅仅是技术的叠加，更代表了多人3D运动理解领域的一次范式转变。

亮点二：强大的零样本泛化能力

实际应用最怕“水土不服”。RAM在PoseTrack等国际主流复杂场景数据集上展现了惊人的适应力。在无需针对特定数据集进行任何额外训练（即零样本条件）的情况下，其在身份一致性、跟踪稳定性以及三维重建精度上，都显著超越了现有方法。这种“拿来即用”的潜力，无疑为其走向实际部署铺平了道路。

亮点三：时序建模接近人类认知

RAM最引人深思的一点，或许是它的设计哲学。通过引入时间记忆与动作预测机制，整个模型的工作方式更接近人类在真实世界中的动态认知过程。想想看，我们即使暂时看不到一个正在运动的人，也能凭借记忆和经验，大致预判他下一刻的位置和姿态。RAM正是借鉴了这种认知能力，不仅提升了技术性能，也为整个视频理解领域提供了宝贵的方法论启示。

上述内容包含AI辅助生成，更详细信息参见以下链接。

原文链接：https://arxiv.org/abs/2603.19929

解读来源：https://cloud.tencent.com/developer/article/2658222

【封面图片来源：名开发者社区，所有者：NLPIR Lab】