北大港中文联合发布VGGT-Edit：3D场景编辑效率提升120倍，5秒极速生成

2026-05-28阅读 0热度 0

3D重建技术已经学会了“观察”，但距离“动手”修改还有一段路要走。

从NeRF到3D高斯泼溅，再到VGGT、π³这类前馈式生成模型，3D重建领域的迭代速度令人瞩目。如今，仅凭几张稀疏的输入图像，就能在数秒内生成一个完整的3D场景。

但一个核心瓶颈也随之凸显：这些模型擅长“复现”世界，却不擅长“改造”世界。你可以命令它重建一个客厅，但当你提出更复杂的空间编辑指令时，例如：

“将沙发移动到窗边”、“移除茶几上的花瓶”、“把木质餐桌替换为大理石材质”……现有方法便显得力不从心。

更深层的问题是编辑一致性的缺失。现有方案常导致多视角冲突：某个角度物体已被删除，另一角度却依然存在；编辑前景物体时，背景几何发生不可控的扭曲。这些瑕疵严重阻碍了3D内容在专业工作流中的应用。

针对这一根本性挑战，北京大学、香港中文大学、上海人工智能实验室与南洋理工大学的研究团队联合提出了VGGT-Edit——一个全新的原生3D编辑框架。

其核心哲学直击要害：

摒弃在2D视图上间接编辑的迂回策略，直接在3D表示空间中进行精准、一致的操作。

在DeltaScene基准测试中，VGGT-Edit在语义准确性、多视角一致性及推理速度三大关键指标上均领先现有方案。其单次编辑耗时仅5秒，相比部分迭代式方法实现了最高120倍的加速，为实时3D交互打开了新的可能。

视角不一致：2D编辑范式的根本局限

当前多数3D编辑方法本质上是2D思维的延伸。其典型流程是：将3D场景渲染为多个2D视图，分别对每张图像进行编辑（如使用扩散模型），再通过优化试图融合这些2D修改以重建3D结果。

这种“分视图处理”的策略先天存在缺陷：

不同视角的编辑结果难以对齐；
物体在部分视角中消失，在其他视角中残留；
背景区域出现非预期的几何漂移；
物体边缘产生重影和闪烁伪影。

△3D编辑方法对比

最终输出更像是一组经过独立修图的2D图片集合，而非一个内在统一、几何稳定的三维实体。对于机器人空间推理、AR/VR应用及数字孪生系统而言，这种不一致性是致命的。这些应用要求3D世界在任何观测角度下都保持逻辑自洽。

VGGT-Edit的解决方案极为直接：既然问题根源于2D视角的割裂，就彻底转向原生3D编辑范式。

该框架基于VGGT类前馈重建模型构建，继承了其高效的3D表示能力。关键创新在于，团队并未选择重新生成整个场景，而是引入了“残差场预测”机制。

其原理可概括为：模型首先编码并锁定原始场景的稳定3D结构，随后仅预测需要发生变化的局部区域。具体编辑指令被转化为空间变化，例如：

目标物体的位移向量；
表面材质属性的替换；
特定几何体的删除；
新物体的插入与融合。

所有操作被统一建模为一个简洁的公式：编辑后场景 = 原始场景 + 局部残差场。

这一设计带来了显著优势：由于场景大部分区域无需变动，模型计算资源得以聚焦于局部修改。其直接结果是，未被编辑的背景区域保持了极高的几何与纹理稳定性，这是传统方法难以实现的。

深度同步文本注入： bridging 语义与空间鸿沟

研究团队发现，若仅将文本指令（如“移动椅子”）简单输入模型，常导致语义与空间解耦：模型理解了“改什么”，却无法精确定位“改哪里”。

为解决这一对齐难题，VGGT-Edit设计了深度同步文本注入机制。该技术使文本语义信息与3D空间特征在网络的多层深度上进行持续、交互式的融合。不同于传统方法仅在输入端注入一次文本，VGGT-Edit在多个关键特征层同步融入指令语义。

此举确保了模型在整个3D生成流程中能持续明确：

当前处理的空间区域是否为目标编辑区；
该区域需要执行何种具体的几何或外观变化；
变化在三维空间中的精确坐标与范围。

此外，团队引入了“视角重要性加权”策略。在多个输入视角中，某些视角可能被遮挡或信息不全。VGGT-Edit能自动评估各视角的可靠性，并为信息完整、遮挡少的视角分配更高权重，从而在多视角融合时提升整体一致性。

专用编辑头：从“重建”到“编辑”的任务适配

VGGT-Edit的另一核心创新是引入了一个专为3D编辑任务设计的独立编辑头。

研究人员指出，VGGT类模型原有的重建头旨在精确复原场景几何与外观。而3D编辑的核心需求截然不同：在保持全局场景稳定的前提下，对局部区域进行可控、一致的修改。

因此，团队额外训练了一个并行的编辑分支，其唯一任务是预测由文本指令驱动的局部残差变化。这个编辑头直接作用于模型的内部3D表示空间，输出需要施加的几何与外观偏移量。本质上，它学习的是：

识别并保护无需改动的场景区域；
精准定位指令对应的3D目标区域；
确保编辑结果在所有渲染视角下保持几何一致。

相比暴力全场景重生成，这种“外科手术式”的局部修改策略，在保证结果稳定的同时，大幅提升了计算效率，是赋予VGGT类模型强大编辑能力的关键模块。

DeltaScene：驱动原生3D编辑的十万级数据集

为训练VGGT-Edit，团队构建了规模近十万的DeltaScene数据集，涵盖客厅、办公室、住宅等多种室内场景类型。

△DeltaScene数据集概览

其数据生成流程高度自动化，整合了Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等先进模型，自动完成指令生成、目标分割、多视角同步编辑及3D一致性过滤。

△DeltaScene数据构建流程

最终产出的是严格满足多视角几何一致性的高质量训练数据。这对于训练真正的原生3D编辑模型至关重要：模型必须学会将同一文本指令，映射到所有视角下相同的3D结构变化，而非学习独立的2D图像变换。

性能突破：接近实时的编辑速度与卓越一致性

实验结果验证了原生3D编辑路线的有效性。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性及推理速度上均表现卓越。

在执行添加物体、调整位置、修改材质等复杂任务时，传统方法常产生贴图错位或几何漂移。相比之下，VGGT-Edit的输出结果呈现出真实、稳定、自洽的三维空间特性。

△不同3D编辑任务的定性对比

速度的提升更具颠覆性。论文数据显示，VGGT-Edit单次编辑耗时约5秒，相比需要迭代优化的传统方法，实现了最高120倍的加速。这使得高质量3D场景编辑首次迈入“近实时交互”的范畴。

对于需要实时环境交互的机器人、快速更新的数字孪生系统、以及AR/VR内容创作而言，这种速度突破意义重大。它使得3D世界从一个静态的展示品，转变为一个可即时、自由编辑的交互式画布。

△DeltaScene数据集上的定量评估结果

泛化性：理解“空间变换”的底层逻辑

论文中一项有趣的实验展示了模型的泛化能力。研究人员输入了一条未在训练集中出现的指令：“将中间的椅子顺时针旋转90度”。

模型成功理解了指令意图，并输出了正确的编辑结果。

△对未见指令的泛化能力展示

这表明VGGT-Edit所学到的并非固定的编辑模板，而是开始理解文本语义如何映射到3D空间中的基本几何变换（如旋转、平移、缩放）。

这种对“空间变化本质”的理解，或许比单纯生成静态3D场景更为重要。未来空间智能的核心，可能不在于创造世界，而在于像人类一样，对已有世界进行稳定、实时、符合物理规律的感知与改造。VGGT-Edit正是迈向这一目标的关键一步。

论文链接：https://arxiv.org/abs/2605.15186