北大VGGT-Edit实测:120倍速3D场景编辑,新手也能5秒出片

2026-05-28阅读 0热度 0
ai

当前3D生成技术已能“看见”世界,但要“修改”它仍面临巨大挑战。

从NeRF到3D Gaussian Splatting,再到VGGT与π³等前馈模型,3D重建的速度与质量已大幅提升——仅需数张图片,几秒内即可生成完整场景。

然而,真正的瓶颈在于编辑能力。现有模型擅长理解三维结构,却难以执行精确的修改指令。例如,你可以重建一个房间,但无法有效命令模型:

“将椅子移至窗边,移除中间那把,并将灰色皮沙发替换为白色长绒款式。”

更复杂的是,执行此类编辑时,现有方法常出现视角不一致问题——物体在某个角度消失,换个视角却又重现;或编辑前景时意外扭曲背景。

针对这一核心难题,来自北京大学、香港中文大学、上海AI Lab及NTU的研究团队提出了全新方案:VGGT-Edit。其核心思路直击要害:

绕过繁琐的2D转换,直接在3D空间内完成编辑操作。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大关键指标上均领先现有方法,单次编辑仅需约5秒,最高提速达120倍

根本症结:2D路径依赖

目前大多数3D编辑方法本质上仍基于2D思路。它们通常将3D场景分解为多个2D视角图像,分别编辑后再尝试融合回3D形态。

这种“分视角处理”策略带来了根本性矛盾:各视角编辑独立进行,导致结果在多视角间无法保持一致。常见问题包括:

  • 某一视角中物体被删除;
  • 切换视角后物体依然存在;
  • 背景区域发生非预期形变;
  • 物体边缘出现重影与闪烁伪影。

△ 传统2D编辑方法导致的多视角不一致问题

许多输出结果更像是“多角度修图合集”,而非内在统一的3D实体。对于机器人导航、AR/VR应用及空间智能等高可靠性场景,这种不一致性是致命缺陷——它们要求3D世界在所有视角下均保持逻辑一致,而非仅在某些角度正确。

原生3D编辑:从理论到实践

VGGT-Edit的应对策略极为直接:既然2D转换导致信息损耗,那就彻底避免这一步骤

该框架基于VGGT等高效前馈式3D重建模型构建,继承了其快速生成紧凑3D表示的能力。但团队的创新在于,并未选择重新生成整个场景,而是引入了精妙机制:

残差场预测。

△ VGGT-Edit的“残差场预测”核心思路

该概念可简述为:模型首先锁定原始场景的稳定3D结构,随后仅学习“需要变更的区域”。例如:

  • 椅子需向右平移;
  • 沙发材质需从皮质改为绒布;
  • 特定物体需被移除;
  • 需添加新家具。

所有编辑操作均被统一表达为简洁公式:新场景 = 原场景 + 局部残差变化

此设计带来显著优势:由于大部分区域无需改动,模型不必“重新构想整个场景”,只需聚焦局部修改。因此,未被编辑的背景区域能保持极高稳定性,这是VGGT-Edit与现有方法最直观的差异之一。

文本语义与3D空间的深度对齐

研究团队发现,若仅将文本指令(如“移动椅子”)直接输入模型,易产生“指令理解偏差”——模型大致理解意图,却难以精确定位操作区域。

为解决这一对齐难题,VGGT-Edit设计了关键机制:深度同步文本注入

其本质是让文本语义信息与3D空间特征在模型多个处理层级持续融合。传统方法通常仅在网络前端注入一次文本,而VGGT-Edit则在多个关键层反复融合语义。这使得模型在形成3D表示的整个过程中,始终明确:

  • 应修改哪个空间区域;
  • 修改的具体目标为何;
  • 目标在3D空间中的精确位置。

同时,团队还设计了视角重要性加权策略。在多视角数据中,并非所有视角都同等可靠——部分视角可能存在遮挡或仅见物体局部。VGGT-Edit能自动评估并赋予更清晰、完整的视角更高权重,从而使多视角编辑结果更稳定一致。

专为编辑任务设计的模块

除整体框架创新外,VGGT-Edit还包含关键组件——一个专为3D编辑任务优化的编辑头

团队发现,VGGT等原生重建模型的输出头更专注于“精确恢复场景”。但3D编辑的核心需求截然不同:如何在保持场景整体稳定的前提下,精准且一致地修改局部区域

因此,VGGT-Edit引入了独立的编辑分支,专门预测场景所需的局部变化。该编辑头直接作用于模型的3D表示空间,并输出对应残差场。本质上,它学习的是:

  • 哪些区域应保持不变;
  • 哪些区域是编辑目标;
  • 如何确保所有视角的编辑结果一致。

相比重新生成整个场景,这种“外科手术式”的局部修改不仅结果更稳定,计算效率也显著提升。这是让快速重建模型获得实用化编辑能力的关键一步。

十万级数据集:训练3D编辑专用模型

为有效训练VGGT-Edit,团队构建了全新的、规模近10万样本的3D编辑数据集——DeltaScene。该数据集覆盖客厅、办公室、住宅、商业空间等多种室内场景。

△ DeltaScene数据集示例

更关键的是,其数据生成流程实现了高度自动化。研究团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等一系列模型,自动完成编辑指令生成、目标物体识别、多视角编辑模拟,并经过严格的3D一致性过滤,最终产出满足“多视角几何一致”要求的高质量训练数据。

△ 自动化数据生成与过滤流程

对于原生3D编辑任务,这一步至关重要。模型需要学习的不仅是图像层面的像素变化,更是同一条编辑指令如何在所有不同视角下,引发协调一致的3D空间变化。

3D编辑首次逼近实时交互

实验证明,“原生3D编辑”路线切实有效。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大核心评估维度上,均超越了现有主流方法。

尤其在添加家具、调整物体位置、修改材质属性等复杂任务中,许多传统方法输出仍带有明显“贴图感”与几何错位,而VGGT-Edit生成的结果更接近真实、稳固的3D空间。

△ VGGT-Edit与其他方法的编辑效果对比

速度提升更为关键。论文数据显示,VGGT-Edit完成单次编辑仅需约5秒。相比需要长时间迭代优化的传统方法,最高实现了120倍加速。这意味着3D内容编辑首次真正逼近“实时交互”体验门槛。

对于机器人实时环境重构、数字孪生更新、AR/VR内容创作等领域,这种速度飞跃意义重大。只有当编辑操作足够迅捷,3D世界才能从静态的“观看对象”转变为可实时操作的“交互空间”。

△ 快速编辑能力开启实时交互可能性

模型开始理解“空间变化”的本质

论文中还有一个值得关注的发现。研究人员输入了一条训练中未出现的指令:“将中间那把椅子顺时针旋转90度。”

结果,模型依然成功完成了编辑。

△ 对未见过指令(旋转)的泛化编辑能力

这表明VGGT-Edit所学并非简单的编辑模板匹配,而是开始真正理解文本语义如何映射到3D空间中的几何与属性变化。这种对“空间变化”本身的泛化理解能力,可能比“生成静态3D场景”更为重要。

对于未来空间智能而言,核心能力或许不在于“创造世界”,而在于能否像人类一样,对现有世界进行自由、稳定、实时的感知与修改。VGGT-Edit正将我们向这一目标推进。

论文链接:https://arxiv.org/abs/2605.15186

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策