PhysForge框架测评:3D静态模型秒变可交互对象

2026-06-12阅读 0热度 0
Forge

只需一张静态图片,就能自动生成完整且可交互的3D资产——这在几年前几乎难以想象。如今,香港大学与腾讯混元研究团队联手推出的PhysForge框架,真正实现了这一突破。

PhysForge能够基于单张输入图片,自动生成具备部件结构、物理属性、功能语义以及精确运动学参数的3D资产。这意味着:柜门不仅要有外观,还必须明确其旋转轴线;按钮除形状外,需定义“按下/弹起”的状态切换;抽屉不能只呈现完整几何体,还需指定滑动方向、运动范围、材质与质量等物理参数。该研究已被ICML 2026接收。

坦白说,当前绝大多数3D生成方法仍停留在“静态外壳”阶段——视觉上精致,却缺乏支撑真实交互的功能逻辑与层级化物理结构。这类模型一旦放入机器人仿真或游戏引擎,便沦为“中看不中用”的摆设。

PhysForge正是为了解决这一核心痛点而设计。

  • 论文题目:PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

  • 项目主页:https://hku-mmlab.github.io/PhysForge/

  • 论文链接:https://arxiv.org/abs/2605.05163

效果展示

直观来看,PhysForge仅凭单张输入图像即可生成具备物理感知的3D资产。输出结果不仅包含高质量几何与纹理,还携带完整的部件结构,并为每个部件标注详尽的物理属性。对于可动部件,系统会预测关节轴、关节原点以及运动范围等运动学参数,并明确可交互方式。

一个水壶、一扇柜门、一个按钮或一盏台灯,不再是“仅供观赏”的模型,而是能被打开、按压、抓取,并直接部署到交互式虚拟世界中的资产。在机器人仿真演示中,将PhysForge生成的资产导入RoboTwin环境后,机械臂能够准确识别并操作功能部件——例如依照关节约束打开柜门、拉出抽屉,或抓取指定部件。

为什么需要Physics-Grounded 3D Assets?

过去一段时间,3D生成模型在整体形状、纹理和视觉质量上进步显著:模型美观度、几何完整性、表面逼真度已成为常规评价维度。但在具身智能与交互式虚拟环境中,视觉逼真只是起点。

真正可交互的3D资产,还必须回答一组更深层的问题:

  • 物体由哪些功能部件组成?

  • 每个部件具备什么语义、材质与质量?

  • 哪些部件可以被推动、抓取、旋转或滑动?

  • 部件之间存在怎样的层级与父子关系?

  • 可动部件的关节类型、轴向、原点以及运动范围分别是什么?

这些信息共同决定了资产能否被仿真器、游戏引擎和具身智能系统真正利用。缺乏物理属性与运动学定义的模型,即便视觉再精致,也难以成为“可操作”的环境对象。PhysForge的核心观点十分明确:交互式资产生成必须根植于功能逻辑与层级化物理结构。形状不只是外观的结果,更应是功能、材料、约束与可操作性的共同体现。

方法介绍:两阶段“规划-生成”策略

PhysForge将复杂的物理感知3D资产生成解耦为两个清晰阶段:先由大模型进行物理规划,再由扩散模型负责几何、纹理与运动学参数的联合生成。

第一阶段:VLM-based Planning

研究者将VLM训练成了“物理建筑师”。它接收单张图像、可选的2D Mask,以及由TRELLIS生成的3D体素表示,然后自回归地生成一份层级化物理蓝图(Hierarchical Physical Blueprint)。这份蓝图定义了每个部件的3D边界框、父子层级关系、关节类型,以及材质、质量、部件功能、状态机和原子语义等详细信息。简而言之,模型先在语义与物理层面判断出“这个物体应该怎么拆、怎么用、怎么动”。

第二阶段:Diffusion-based Generation

VLM擅长结构与语义规划,但关节轴方向、关节原点、运动范围这些连续的3D参数,需要更精细的生成机制。为此,PhysForge将这些精确数值交由扩散阶段来“锻造”。研究者提出了KineVoxel Injection(KVI)机制,将每个可动部件的关节原点、关节轴和运动限制编码为运动学体素(kinematic voxel),与几何体素一同进入统一的扩散去噪过程。这样,模型可以在同一生成过程中协同学习“部件长什么样”和“部件应该怎么动”。

最终,PhysForge能够同时输出高质量几何、纹理、部件结构以及精确运动学参数,使单图生成的3D资产具备直接进入交互环境的能力。

PhysDB:15万资产的物理标注基座

要支撑这样的任务,数据基础不可或缺。研究者构建了PhysDB——一个包含15万3D资产的大规模数据集。它来源于Objaverse,覆盖家庭、工业、武器、个人用品、车辆、科技电子、文化物品等七大类别,并为每个资产提供了细粒度、层级化的物理标注。

PhysDB的标注体系分为四层:

  • 整体属性:描述物体整体尺度、类别和使用场景,例如厨房、卧室等。

  • 静态属性:描述部件级语义、材质和质量,例如金属、木材等。

  • 功能属性:描述部件的内在功能和状态机,例如“用于容纳”或按钮的按下/释放状态。

  • 交互属性:描述可交互属性和运动学定义,包括可推动、可抓取、关节类型、父部件、轴原点、轴方向和关节限制。

这套标注体系让模型学到的不仅仅是“部件在哪里”,更是“部件是什么、能做什么、应该如何被操作”,为PhysForge从静态视觉走向物理感知的3D资产生成提供了关键数据支撑。

丰富的下游应用

PhysForge生成的资产并非仅供展示的静态模型,而是能直接服务于多个下游场景。

机器人仿真。对于机器人训练与评测,PhysForge生成的资产可作为可操作的环境对象,大幅扩充仿真场景,减少手工建模、关节绑定和物理参数配置的成本,让机器人更容易在多样化物体上学习真实交互。

虚拟世界与游戏引擎。在Unity、Unreal Engine等交互式环境中,PhysForge生成的资产自带材质、质量、功能和关节信息,开发者能够更直接地构建复杂交互逻辑,无需从零手动配置每一个可动物体。

具身智能Agent与环境交互。由于第一阶段会生成文本化的物理蓝图,Agent可以通过自然语言查询资产的结构与功能信息,形成更明确的任务计划。例如面对一个柜子,Agent能知道柜门位置、把手所属部件、关节旋转方式,以及如何完成打开操作。

总结

PhysForge将3D生成的目标从“生成静态外观”推进到“生成可交互资产”。通过VLM-based Planning与Diffusion-based Generation的两阶段设计,框架先规划层级化物理蓝图,再通过KVI机制生成高质量几何、纹理和精确运动学参数。同时,PhysDB为这一方向提供了大规模、细粒度、层级化的物理标注基础。

面向交互式虚拟世界、机器人仿真和具身智能数据引擎,物理感知的3D资产生成正成为一项关键基础能力。而PhysForge迈出了坚实的一步:让生成的3D资产不止“看起来真实”,更能真正“被理解、被操作、被交互”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策