北大港中文联合发布VGGT-Edit:3D场景编辑效率提升120倍,5秒极速生成
3D重建技术已经学会了“观察”,但距离“动手”修改还有一段路要走。
从NeRF到3D高斯泼溅,再到VGGT、π³这类前馈式生成模型,3D重建领域的迭代速度令人瞩目。如今,仅凭几张稀疏的输入图像,就能在数秒内生成一个完整的3D场景。
但一个核心瓶颈也随之凸显:这些模型擅长“复现”世界,却不擅长“改造”世界。你可以命令它重建一个客厅,但当你提出更复杂的空间编辑指令时,例如:
“将沙发移动到窗边”、“移除茶几上的花瓶”、“把木质餐桌替换为大理石材质”……现有方法便显得力不从心。
更深层的问题是编辑一致性的缺失。现有方案常导致多视角冲突:某个角度物体已被删除,另一角度却依然存在;编辑前景物体时,背景几何发生不可控的扭曲。这些瑕疵严重阻碍了3D内容在专业工作流中的应用。
针对这一根本性挑战,北京大学、香港中文大学、上海人工智能实验室与南洋理工大学的研究团队联合提出了VGGT-Edit——一个全新的原生3D编辑框架。
其核心哲学直击要害:
摒弃在2D视图上间接编辑的迂回策略,直接在3D表示空间中进行精准、一致的操作。
在DeltaScene基准测试中,VGGT-Edit在语义准确性、多视角一致性及推理速度三大关键指标上均领先现有方案。其单次编辑耗时仅5秒,相比部分迭代式方法实现了最高120倍的加速,为实时3D交互打开了新的可能。
视角不一致:2D编辑范式的根本局限
当前多数3D编辑方法本质上是2D思维的延伸。其典型流程是:将3D场景渲染为多个2D视图,分别对每张图像进行编辑(如使用扩散模型),再通过优化试图融合这些2D修改以重建3D结果。
这种“分视图处理”的策略先天存在缺陷:
- 不同视角的编辑结果难以对齐;
- 物体在部分视角中消失,在其他视角中残留;
- 背景区域出现非预期的几何漂移;
- 物体边缘产生重影和闪烁伪影。
△3D编辑方法对比
最终输出更像是一组经过独立修图的2D图片集合,而非一个内在统一、几何稳定的三维实体。对于机器人空间推理、AR/VR应用及数字孪生系统而言,这种不一致性是致命的。这些应用要求3D世界在任何观测角度下都保持逻辑自洽。
VGGT-Edit的解决方案极为直接:既然问题根源于2D视角的割裂,就彻底转向原生3D编辑范式。
该框架基于VGGT类前馈重建模型构建,继承了其高效的3D表示能力。关键创新在于,团队并未选择重新生成整个场景,而是引入了“残差场预测”机制。
其原理可概括为:模型首先编码并锁定原始场景的稳定3D结构,随后仅预测需要发生变化的局部区域。具体编辑指令被转化为空间变化,例如:
- 目标物体的位移向量;
- 表面材质属性的替换;
- 特定几何体的删除;
- 新物体的插入与融合。
所有操作被统一建模为一个简洁的公式:编辑后场景 = 原始场景 + 局部残差场。
这一设计带来了显著优势:由于场景大部分区域无需变动,模型计算资源得以聚焦于局部修改。其直接结果是,未被编辑的背景区域保持了极高的几何与纹理稳定性,这是传统方法难以实现的。
深度同步文本注入: bridging 语义与空间鸿沟
研究团队发现,若仅将文本指令(如“移动椅子”)简单输入模型,常导致语义与空间解耦:模型理解了“改什么”,却无法精确定位“改哪里”。
为解决这一对齐难题,VGGT-Edit设计了深度同步文本注入机制。该技术使文本语义信息与3D空间特征在网络的多层深度上进行持续、交互式的融合。不同于传统方法仅在输入端注入一次文本,VGGT-Edit在多个关键特征层同步融入指令语义。
此举确保了模型在整个3D生成流程中能持续明确:
- 当前处理的空间区域是否为目标编辑区;
- 该区域需要执行何种具体的几何或外观变化;
- 变化在三维空间中的精确坐标与范围。
此外,团队引入了“视角重要性加权”策略。在多个输入视角中,某些视角可能被遮挡或信息不全。VGGT-Edit能自动评估各视角的可靠性,并为信息完整、遮挡少的视角分配更高权重,从而在多视角融合时提升整体一致性。
专用编辑头:从“重建”到“编辑”的任务适配
VGGT-Edit的另一核心创新是引入了一个专为3D编辑任务设计的独立编辑头。
研究人员指出,VGGT类模型原有的重建头旨在精确复原场景几何与外观。而3D编辑的核心需求截然不同:在保持全局场景稳定的前提下,对局部区域进行可控、一致的修改。
因此,团队额外训练了一个并行的编辑分支,其唯一任务是预测由文本指令驱动的局部残差变化。这个编辑头直接作用于模型的内部3D表示空间,输出需要施加的几何与外观偏移量。本质上,它学习的是:
- 识别并保护无需改动的场景区域;
- 精准定位指令对应的3D目标区域;
- 确保编辑结果在所有渲染视角下保持几何一致。
相比暴力全场景重生成,这种“外科手术式”的局部修改策略,在保证结果稳定的同时,大幅提升了计算效率,是赋予VGGT类模型强大编辑能力的关键模块。
DeltaScene:驱动原生3D编辑的十万级数据集
为训练VGGT-Edit,团队构建了规模近十万的DeltaScene数据集,涵盖客厅、办公室、住宅等多种室内场景类型。
△DeltaScene数据集概览
其数据生成流程高度自动化,整合了Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等先进模型,自动完成指令生成、目标分割、多视角同步编辑及3D一致性过滤。
△DeltaScene数据构建流程
最终产出的是严格满足多视角几何一致性的高质量训练数据。这对于训练真正的原生3D编辑模型至关重要:模型必须学会将同一文本指令,映射到所有视角下相同的3D结构变化,而非学习独立的2D图像变换。
性能突破:接近实时的编辑速度与卓越一致性
实验结果验证了原生3D编辑路线的有效性。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性及推理速度上均表现卓越。
在执行添加物体、调整位置、修改材质等复杂任务时,传统方法常产生贴图错位或几何漂移。相比之下,VGGT-Edit的输出结果呈现出真实、稳定、自洽的三维空间特性。
△不同3D编辑任务的定性对比
速度的提升更具颠覆性。论文数据显示,VGGT-Edit单次编辑耗时约5秒,相比需要迭代优化的传统方法,实现了最高120倍的加速。这使得高质量3D场景编辑首次迈入“近实时交互”的范畴。
对于需要实时环境交互的机器人、快速更新的数字孪生系统、以及AR/VR内容创作而言,这种速度突破意义重大。它使得3D世界从一个静态的展示品,转变为一个可即时、自由编辑的交互式画布。
△DeltaScene数据集上的定量评估结果
泛化性:理解“空间变换”的底层逻辑
论文中一项有趣的实验展示了模型的泛化能力。研究人员输入了一条未在训练集中出现的指令:“将中间的椅子顺时针旋转90度”。
模型成功理解了指令意图,并输出了正确的编辑结果。
△对未见指令的泛化能力展示
这表明VGGT-Edit所学到的并非固定的编辑模板,而是开始理解文本语义如何映射到3D空间中的基本几何变换(如旋转、平移、缩放)。
这种对“空间变化本质”的理解,或许比单纯生成静态3D场景更为重要。未来空间智能的核心,可能不在于创造世界,而在于像人类一样,对已有世界进行稳定、实时、符合物理规律的感知与改造。VGGT-Edit正是迈向这一目标的关键一步。
论文链接:https://arxiv.org/abs/2605.15186
