南洋理工开源3D重建框架：单图生成交互模型，新手也能快速上手

2026-06-02阅读 0热度 0

开源

在单目3D生成领域，从图像重建静态几何已日趋成熟。然而，一个关键瓶颈日益凸显：多数生成模型产出的是无法交互的“静态雕塑”。

这直接限制了其在机器人操作、交互式仿真等下游任务的应用价值。生成一把外观精准的椅子，若其椅背无法后仰、椅腿不能折叠，对于追求物理交互的具身智能而言，其效用便大打折扣。

南洋理工大学S-Lab团队近期提出的MonoArt，针对这一痛点提供了高效的解决方案。其核心设计哲学明确：与其让模型盲目猜测运动参数，不如引导其系统性地解构物体的内在结构。

具体而言，MonoArt将单目可动物体重建任务，重构为一个渐进式的结构理解流程。模型并非端到端地输出所有运动学参数，而是仿照人类的认知逻辑，依次完成几何重建、部件分割、运动关系推断与参数精化，最终输出一个融合了精细几何、部件层级与准确关节信息的完整可动3D资产。

引言：从“静态”到“可动”的挑战

可动3D重建的复杂性远超静态重建。它要求模型不仅恢复物体的外观形状，还需精确解析其内部结构：如何划分运动部件、判定关节类型（如旋转、平移）、定位旋转轴心与中心，并估算运动范围。核心难点在于结构与运动的强耦合性：不明确部件划分，便难以推断运动方式；反之，不理解运动关系，也无法构建正确的可动结构。这种耦合导致直接从图像特征回归运动参数的方法普遍存在稳定性与泛化性问题。

现有方法主要分为三类：

第一类基于多视角或视频序列，依赖同一物体在不同运动状态下的观测。这类方法效果较好，但对数据采集条件要求苛刻，在实际应用中往往难以满足。

第二类基于检索与组装，利用现有3D资产库进行部件拼装。其效果受限于资产库的覆盖度与质量，易产生几何错误或纹理不匹配的问题。

第三类引入额外先验，例如借助视觉语言模型或辅助视频生成来推测运动。这降低了对多视角数据的依赖，但引入了系统复杂性，更依赖外部先验的可靠性，且通常推理耗时更长。

这些方法的共同局限在于，均未将“结构理解”本身作为运动推理的基石。它们或依赖更多观测信息进行补充，或借助外部先验提供线索，却回避了一个更本质的问题：能否仅从单张图像出发，先稳定地解析出物体的几何与部件结构，再基于此推断运动关系？

MonoArt正是直击这一核心问题。它不再将运动参数视为一个需要直接回归的黑箱目标，而是将其构建为一个渐进式的结构推理链条。几何、部件与运动信息在这一连续的逻辑线上依次浮现，使得“运动”成为“结构理解”自然而然的产物。

方法设计：四步走的渐进式推理

MonoArt通过四个核心模块，实现了从单张图像到完整可动模型的逐步、可解释推理。

第一步：先有一个靠谱的3D形状

所有高级推理的基础，是一个从单张图像恢复出的高保真三维几何。MonoArt采用冻结的TRELLIS模型作为3D生成骨干，输出规范化的网格及其对应的潜在特征。这一步的关键在于，它将后续所有关于“部件”和“运动”的推理，都锚定在三维空间坐标系中，而非不稳定的二维图像像素上。这为后续步骤提供了稳定且直观的几何基础。

第二步：识别物体由哪些可动部件组成

获得3D形状后，下一个核心任务是识别其中哪些部分构成独立的运动部件。例如，一个柜子的门与主体显然是两个不同部件，但原始网格数据并不包含此信息。MonoArt的“部件感知语义推理器”即负责解析这一部件级结构。

该模块将网格表面每个顶点的几何特征投影到三个正交平面，再通过Transformer架构捕捉全局结构上下文，最终为每个顶点生成一个蕴含部件归属信息的特征向量。训练时，通过三元组损失函数拉大不同部件特征间的距离，促使属于同一部件的顶点特征聚集，不同部件的特征分离。

可视化结果清晰展示了该模块的效用：在没有此模块时，顶点特征难以区分不同运动部件；引入模块及监督后，不同部件的特征实现了清晰分离。

第三步：推断每个部件怎么运动

明确部件划分后，需进一步推断其运动方式。此处存在一个关键挑战：完整描述一个部件的运动，需同时回答两类问题——其“语义类别”（例如，这是门还是抽屉？）及其“空间运动参数”（例如，旋转轴心位于何处？）。

若将这两类信息混合在单一表征中进行端到端回归，结果往往不稳定。MonoArt的“双查询运动解码器”采用解耦设计：使用内容查询编码部件语义信息，使用位置查询编码空间运动锚点，二者通过6层迭代细化模块逐步对齐。

在每一层迭代中，查询之间通过自注意力机制建模部件间关系，再通过交叉注意力机制从顶点特征中提取证据。这种“语义与空间并行推理、迭代对齐”的策略，显著提升了运动关系推断的鲁棒性。

第四步：输出物理可用的运动学参数

最后，“运动学估计器”将前述推理结果转化为明确、物理可解释的输出参数：每个部件的语义掩码、关节类型（固定、旋转、平移等）、旋转轴方向、旋转中心坐标以及运动范围上下限。此外，它还预测部件间的父子连接关系，构建出完整的运动学树，明确“哪个部件驱动哪个部件”。

一个精妙的设计在于关节位置的预测采用了残差形式：以上一步输出的位置查询（即部件质心）为初始锚点，仅预测相对偏移量。消融实验证实，这比直接回归绝对坐标更为准确。这也完美呼应了框架整体的“渐进式”哲学：每一步推理都稳固地建立在前一步的可靠输出之上。

这种四步递进的设计带来了显著优势：整个运动推理流程无需任何外部先验——不依赖多视角图像、不调用3D资产库、不借助视觉语言模型，也无需辅助视频生成。那么，其实际性能表现如何？

实验效果：领先的性能与实用的潜力

在PartNet-Mobility标准基准测试中，MonoArt在7类与46类两种设置下均取得了领先性能。

与SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等代表性方法相比，MonoArt在几何重建质量（Chamfer Distance）、关节类型预测准确率（Joint Type Acc.）以及关键运动参数估计（如旋转轴误差）等多个核心指标上表现最优，同时保持了更高的推理效率。

例如，对比Articulate-Anything的229.9秒和PhysXAnything的256.8秒单样本推理耗时，MonoArt仅需20.5秒（其中18.2秒用于TRELLIS的3D重建，运动推理本身仅增加约2秒开销）。

其生成结果的直接可用性在下游任务中得到验证。MonoArt重建的可动物体能够无缝导入IsaacSim等物理仿真环境，供Franka机械臂执行抓取、开门等操作训练，而无需任何额外的关节标注。这充分证明了其输出具备即插即用的实用价值。此外，该方法的能力可扩展至包含多个可动物体的复杂场景生成。

局限性与未来展望

MonoArt为单目可动3D重建指明了一条清晰的新路径：并非依赖日益庞杂的外部先验去“补偿”信息缺失，而是通过渐进式的结构推理，让模型从根本上理解物体的构成逻辑与运动机理。

当然，当前方法也存在局限。对于尺度差异极大的微小部件，均匀采样可能导致其特征不够显著；对于拓扑结构新颖或极为罕见的运动模式，模型的参数预测精度可能下降。这些挑战，也为后续研究在模型泛化性与细节处理方面留下了探索与优化的空间。