PhysForge框架测评:3D静态模型秒变可交互对象
只需一张静态图片,就能自动生成完整且可交互的3D资产——这在几年前几乎难以想象。如今,香港大学与腾讯混元研究团队联手推出的PhysForge框架,真正实现了这一突破。
PhysForge能够基于单张输入图片,自动生成具备部件结构、物理属性、功能语义以及精确运动学参数的3D资产。这意味着:柜门不仅要有外观,还必须明确其旋转轴线;按钮除形状外,需定义“按下/弹起”的状态切换;抽屉不能只呈现完整几何体,还需指定滑动方向、运动范围、材质与质量等物理参数。该研究已被ICML 2026接收。
坦白说,当前绝大多数3D生成方法仍停留在“静态外壳”阶段——视觉上精致,却缺乏支撑真实交互的功能逻辑与层级化物理结构。这类模型一旦放入机器人仿真或游戏引擎,便沦为“中看不中用”的摆设。
PhysForge正是为了解决这一核心痛点而设计。
论文题目:PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
项目主页:https://hku-mmlab.github.io/PhysForge/
论文链接:https://arxiv.org/abs/2605.05163
效果展示
直观来看,PhysForge仅凭单张输入图像即可生成具备物理感知的3D资产。输出结果不仅包含高质量几何与纹理,还携带完整的部件结构,并为每个部件标注详尽的物理属性。对于可动部件,系统会预测关节轴、关节原点以及运动范围等运动学参数,并明确可交互方式。
一个水壶、一扇柜门、一个按钮或一盏台灯,不再是“仅供观赏”的模型,而是能被打开、按压、抓取,并直接部署到交互式虚拟世界中的资产。在机器人仿真演示中,将PhysForge生成的资产导入RoboTwin环境后,机械臂能够准确识别并操作功能部件——例如依照关节约束打开柜门、拉出抽屉,或抓取指定部件。
为什么需要Physics-Grounded 3D Assets?
过去一段时间,3D生成模型在整体形状、纹理和视觉质量上进步显著:模型美观度、几何完整性、表面逼真度已成为常规评价维度。但在具身智能与交互式虚拟环境中,视觉逼真只是起点。
真正可交互的3D资产,还必须回答一组更深层的问题:
物体由哪些功能部件组成?
每个部件具备什么语义、材质与质量?
哪些部件可以被推动、抓取、旋转或滑动?
部件之间存在怎样的层级与父子关系?
可动部件的关节类型、轴向、原点以及运动范围分别是什么?
这些信息共同决定了资产能否被仿真器、游戏引擎和具身智能系统真正利用。缺乏物理属性与运动学定义的模型,即便视觉再精致,也难以成为“可操作”的环境对象。PhysForge的核心观点十分明确:交互式资产生成必须根植于功能逻辑与层级化物理结构。形状不只是外观的结果,更应是功能、材料、约束与可操作性的共同体现。
方法介绍:两阶段“规划-生成”策略
PhysForge将复杂的物理感知3D资产生成解耦为两个清晰阶段:先由大模型进行物理规划,再由扩散模型负责几何、纹理与运动学参数的联合生成。
第一阶段:VLM-based Planning
研究者将VLM训练成了“物理建筑师”。它接收单张图像、可选的2D Mask,以及由TRELLIS生成的3D体素表示,然后自回归地生成一份层级化物理蓝图(Hierarchical Physical Blueprint)。这份蓝图定义了每个部件的3D边界框、父子层级关系、关节类型,以及材质、质量、部件功能、状态机和原子语义等详细信息。简而言之,模型先在语义与物理层面判断出“这个物体应该怎么拆、怎么用、怎么动”。
第二阶段:Diffusion-based Generation
VLM擅长结构与语义规划,但关节轴方向、关节原点、运动范围这些连续的3D参数,需要更精细的生成机制。为此,PhysForge将这些精确数值交由扩散阶段来“锻造”。研究者提出了KineVoxel Injection(KVI)机制,将每个可动部件的关节原点、关节轴和运动限制编码为运动学体素(kinematic voxel),与几何体素一同进入统一的扩散去噪过程。这样,模型可以在同一生成过程中协同学习“部件长什么样”和“部件应该怎么动”。
最终,PhysForge能够同时输出高质量几何、纹理、部件结构以及精确运动学参数,使单图生成的3D资产具备直接进入交互环境的能力。
PhysDB:15万资产的物理标注基座
要支撑这样的任务,数据基础不可或缺。研究者构建了PhysDB——一个包含15万3D资产的大规模数据集。它来源于Objaverse,覆盖家庭、工业、武器、个人用品、车辆、科技电子、文化物品等七大类别,并为每个资产提供了细粒度、层级化的物理标注。
PhysDB的标注体系分为四层:
整体属性:描述物体整体尺度、类别和使用场景,例如厨房、卧室等。
静态属性:描述部件级语义、材质和质量,例如金属、木材等。
功能属性:描述部件的内在功能和状态机,例如“用于容纳”或按钮的按下/释放状态。
交互属性:描述可交互属性和运动学定义,包括可推动、可抓取、关节类型、父部件、轴原点、轴方向和关节限制。
这套标注体系让模型学到的不仅仅是“部件在哪里”,更是“部件是什么、能做什么、应该如何被操作”,为PhysForge从静态视觉走向物理感知的3D资产生成提供了关键数据支撑。
丰富的下游应用
PhysForge生成的资产并非仅供展示的静态模型,而是能直接服务于多个下游场景。
机器人仿真。对于机器人训练与评测,PhysForge生成的资产可作为可操作的环境对象,大幅扩充仿真场景,减少手工建模、关节绑定和物理参数配置的成本,让机器人更容易在多样化物体上学习真实交互。
虚拟世界与游戏引擎。在Unity、Unreal Engine等交互式环境中,PhysForge生成的资产自带材质、质量、功能和关节信息,开发者能够更直接地构建复杂交互逻辑,无需从零手动配置每一个可动物体。
具身智能Agent与环境交互。由于第一阶段会生成文本化的物理蓝图,Agent可以通过自然语言查询资产的结构与功能信息,形成更明确的任务计划。例如面对一个柜子,Agent能知道柜门位置、把手所属部件、关节旋转方式,以及如何完成打开操作。
总结
PhysForge将3D生成的目标从“生成静态外观”推进到“生成可交互资产”。通过VLM-based Planning与Diffusion-based Generation的两阶段设计,框架先规划层级化物理蓝图,再通过KVI机制生成高质量几何、纹理和精确运动学参数。同时,PhysDB为这一方向提供了大规模、细粒度、层级化的物理标注基础。
面向交互式虚拟世界、机器人仿真和具身智能数据引擎,物理感知的3D资产生成正成为一项关键基础能力。而PhysForge迈出了坚实的一步:让生成的3D资产不止“看起来真实”,更能真正“被理解、被操作、被交互”。