PhysForge框架测评：3D静态模型秒变可交互对象

2026-06-12阅读 0热度 0

Forge

只需一张静态图片，就能自动生成完整且可交互的3D资产——这在几年前几乎难以想象。如今，香港大学与腾讯混元研究团队联手推出的PhysForge框架，真正实现了这一突破。

PhysForge能够基于单张输入图片，自动生成具备部件结构、物理属性、功能语义以及精确运动学参数的3D资产。这意味着：柜门不仅要有外观，还必须明确其旋转轴线；按钮除形状外，需定义“按下/弹起”的状态切换；抽屉不能只呈现完整几何体，还需指定滑动方向、运动范围、材质与质量等物理参数。该研究已被ICML 2026接收。

坦白说，当前绝大多数3D生成方法仍停留在“静态外壳”阶段——视觉上精致，却缺乏支撑真实交互的功能逻辑与层级化物理结构。这类模型一旦放入机器人仿真或游戏引擎，便沦为“中看不中用”的摆设。

PhysForge正是为了解决这一核心痛点而设计。

论文题目：PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
项目主页：https://hku-mmlab.github.io/PhysForge/
论文链接：https://arxiv.org/abs/2605.05163

效果展示

直观来看，PhysForge仅凭单张输入图像即可生成具备物理感知的3D资产。输出结果不仅包含高质量几何与纹理，还携带完整的部件结构，并为每个部件标注详尽的物理属性。对于可动部件，系统会预测关节轴、关节原点以及运动范围等运动学参数，并明确可交互方式。

一个水壶、一扇柜门、一个按钮或一盏台灯，不再是“仅供观赏”的模型，而是能被打开、按压、抓取，并直接部署到交互式虚拟世界中的资产。在机器人仿真演示中，将PhysForge生成的资产导入RoboTwin环境后，机械臂能够准确识别并操作功能部件——例如依照关节约束打开柜门、拉出抽屉，或抓取指定部件。

为什么需要Physics-Grounded 3D Assets？

过去一段时间，3D生成模型在整体形状、纹理和视觉质量上进步显著：模型美观度、几何完整性、表面逼真度已成为常规评价维度。但在具身智能与交互式虚拟环境中，视觉逼真只是起点。

真正可交互的3D资产，还必须回答一组更深层的问题：

物体由哪些功能部件组成？
每个部件具备什么语义、材质与质量？
哪些部件可以被推动、抓取、旋转或滑动？
部件之间存在怎样的层级与父子关系？
可动部件的关节类型、轴向、原点以及运动范围分别是什么？

这些信息共同决定了资产能否被仿真器、游戏引擎和具身智能系统真正利用。缺乏物理属性与运动学定义的模型，即便视觉再精致，也难以成为“可操作”的环境对象。PhysForge的核心观点十分明确：交互式资产生成必须根植于功能逻辑与层级化物理结构。形状不只是外观的结果，更应是功能、材料、约束与可操作性的共同体现。

方法介绍：两阶段“规划-生成”策略

PhysForge将复杂的物理感知3D资产生成解耦为两个清晰阶段：先由大模型进行物理规划，再由扩散模型负责几何、纹理与运动学参数的联合生成。

第一阶段：VLM-based Planning

研究者将VLM训练成了“物理建筑师”。它接收单张图像、可选的2D Mask，以及由TRELLIS生成的3D体素表示，然后自回归地生成一份层级化物理蓝图（Hierarchical Physical Blueprint）。这份蓝图定义了每个部件的3D边界框、父子层级关系、关节类型，以及材质、质量、部件功能、状态机和原子语义等详细信息。简而言之，模型先在语义与物理层面判断出“这个物体应该怎么拆、怎么用、怎么动”。

第二阶段：Diffusion-based Generation

VLM擅长结构与语义规划，但关节轴方向、关节原点、运动范围这些连续的3D参数，需要更精细的生成机制。为此，PhysForge将这些精确数值交由扩散阶段来“锻造”。研究者提出了KineVoxel Injection（KVI）机制，将每个可动部件的关节原点、关节轴和运动限制编码为运动学体素（kinematic voxel），与几何体素一同进入统一的扩散去噪过程。这样，模型可以在同一生成过程中协同学习“部件长什么样”和“部件应该怎么动”。

最终，PhysForge能够同时输出高质量几何、纹理、部件结构以及精确运动学参数，使单图生成的3D资产具备直接进入交互环境的能力。

PhysDB：15万资产的物理标注基座

要支撑这样的任务，数据基础不可或缺。研究者构建了PhysDB——一个包含15万3D资产的大规模数据集。它来源于Objaverse，覆盖家庭、工业、武器、个人用品、车辆、科技电子、文化物品等七大类别，并为每个资产提供了细粒度、层级化的物理标注。

PhysDB的标注体系分为四层：

整体属性：描述物体整体尺度、类别和使用场景，例如厨房、卧室等。
静态属性：描述部件级语义、材质和质量，例如金属、木材等。
功能属性：描述部件的内在功能和状态机，例如“用于容纳”或按钮的按下/释放状态。
交互属性：描述可交互属性和运动学定义，包括可推动、可抓取、关节类型、父部件、轴原点、轴方向和关节限制。

这套标注体系让模型学到的不仅仅是“部件在哪里”，更是“部件是什么、能做什么、应该如何被操作”，为PhysForge从静态视觉走向物理感知的3D资产生成提供了关键数据支撑。

丰富的下游应用

PhysForge生成的资产并非仅供展示的静态模型，而是能直接服务于多个下游场景。

机器人仿真。对于机器人训练与评测，PhysForge生成的资产可作为可操作的环境对象，大幅扩充仿真场景，减少手工建模、关节绑定和物理参数配置的成本，让机器人更容易在多样化物体上学习真实交互。

虚拟世界与游戏引擎。在Unity、Unreal Engine等交互式环境中，PhysForge生成的资产自带材质、质量、功能和关节信息，开发者能够更直接地构建复杂交互逻辑，无需从零手动配置每一个可动物体。

具身智能Agent与环境交互。由于第一阶段会生成文本化的物理蓝图，Agent可以通过自然语言查询资产的结构与功能信息，形成更明确的任务计划。例如面对一个柜子，Agent能知道柜门位置、把手所属部件、关节旋转方式，以及如何完成打开操作。

总结

PhysForge将3D生成的目标从“生成静态外观”推进到“生成可交互资产”。通过VLM-based Planning与Diffusion-based Generation的两阶段设计，框架先规划层级化物理蓝图，再通过KVI机制生成高质量几何、纹理和精确运动学参数。同时，PhysDB为这一方向提供了大规模、细粒度、层级化的物理标注基础。

面向交互式虚拟世界、机器人仿真和具身智能数据引擎，物理感知的3D资产生成正成为一项关键基础能力。而PhysForge迈出了坚实的一步：让生成的3D资产不止“看起来真实”，更能真正“被理解、被操作、被交互”。