北大港中文联合评测：VGGT-Edit 5秒3D编辑，120倍加速

2026-05-28阅读 0热度 0

# 3D世界具备“观察力”，但缺乏“改造力” 从NeRF到3D Gaussian Splatting，再到VGGT、π³这类前馈式3D重建模型，整个领域的技术迭代显著提速——仅凭少量图像，数秒内即可重建出完整的3D场景。然而瓶颈同样明显：这些模型虽能读懂三维结构，却无法直接操控它。你可以让它复现一间房间，却难以准确下达指令：将座椅挪至窗侧、移除中间的桌子、把灰色皮质沙发换成白色长毛款式。更棘手的是，一旦涉及复杂编辑，现有方法往往快速失效——某个视角椅子消失，换一个角度椅子又浮现；未修改的背景区域也连带发生扭曲。针对这一痛点，来自**北京大学**、**香港中文大学**、**上海AI Lab**、**NTU**等机构的研究团队，提出了一套原生3D编辑框架：**VGGT-Edit**。核心逻辑只有一句话—— **不再折返2D，直接在3D空间内执行编辑操作。** 在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三项指标上均超越现有方法，单次编辑仅需约**5秒**，最高实现**120倍**加速。 ## 症结始终在于2D思维当下多数3D编辑方法本质上仍是“2D路径”——先将场景拆解为多张2D图像，逐帧编辑，再拼合回3D。但每个视角独立处理，极易引发： - 某个视角椅子已被移除； - 切换视角后椅子重新显现； - 背景区域出现整体漂移； - 物体边缘产生重影与闪烁。 ![3D编辑方法的比较](http://img.318050.com/uploads/20260528/17799423466a17c3caa6238924373986.webp) 大量结果更像是“在不同角度强行拼接的图片”，而非稳定的3D空间。对于机器人、AR/VR、空间智能等应用场景，这几乎是致命缺陷——这些领域真正需要的不是“某个视角看起来正确”，而是整个3D世界的持续一致性。 ## 原生3D编辑从概念走向实用 VGGT-Edit的核心策略极其直接：既然问题源于2D，就不再绕回2D。整个框架构建于VGGT-Like前馈式重建模型之上，继承了其快速高效的三维表达能力。但关键创新在于，团队并未选择从头生成整个场景，而是引入了一种精巧机制： **残差场预测（Residual Field Prediction）。** ![VGGT-Edit技术概览](http://img.318050.com/uploads/20260528/17799423476a17c3cb5016e030014792.webp) 类比来说：模型先保留原始场景的稳定3D结构，仅学习“哪些区域需要变化”，例如： - 椅子向右移动； - 沙发材质替换； - 删除某个物体； - 新增一件家具。这些变化被表达为：**新场景 = 原场景 + 局部残差变化** 这一设计的关键优势在于——大部分区域无需变动，因此模型无需“重新生成整个世界”，只需修改局部。结果就是未修改的背景区域保持极高的稳定性。这也是VGGT-Edit与多数现有方法最显著的差异之一。 ## 文本语义首次真正“对齐”3D空间研究团队发现，若仅将一句文本输入模型，常会出现一种情况——模型明白“你想改什么”，却不知道“该改哪里”。为解决这一问题，VGGT-Edit设计了一套关键机制： **深度同步文本注入（Depth-Synchronized Text Injection）** 本质上，它让文本语义与3D空间特征在同一个深度层级中持续同步。传统方法通常只在前期注入一次文本信息，而VGGT-Edit在多个关键层持续融合文本语义。这样一来，模型在整个3D生成过程中始终明确： - 当前应修改哪个区域； - 修改目标是什么； - 空间坐标在哪里。同时，团队还专门设计了“**视角重要性加权**”——因为并非所有视角同样可靠，有些角度可能被遮挡，有些仅能看到物体局部。 VGGT-Edit自动判断哪些视角更可信，最终使多视角编辑结果更加稳定。 ## 专为“3D编辑”设计的编辑头除整体框架外，VGGT-Edit还包含一个关键模块——**专门面向3D编辑任务的编辑头**。研究团队发现，对于VGGT-Like模型，原始的重建Head更关注“如何恢复场景”，但3D编辑的真正难题是：**如何在保持整体稳定的前提下，仅修改局部区域。** 因此，VGGT-Edit额外设计了一套编辑分支，专门预测场景中的局部变化。该编辑Head直接作用于3D表示空间，输出对应的残差场变化。本质上，它学习的是： - 哪些区域应保持不变； - 哪些区域需要编辑； - 编辑后如何保持多视角一致性。相较于直接重新生成整个场景，这种方式更稳定、更高效——这也是让VGGT-Like前馈重建模型具备编辑能力的关键一步。 ## 10万规模数据集专训“3D编辑” 为训练VGGT-Edit，团队专门构建了一个全新的3D编辑数据集**DeltaScene**，规模接近10万组，覆盖客厅、办公室、住宅、商业空间等多种场景。 ![DeltaScene数据集概述](http://img.318050.com/uploads/20260528/17799423476a17c3cbc2fba608444704.webp) 更关键的是，整个数据生成流程高度自动化。团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤，最终产出真正满足“多视角几何一致”的训练数据。 ![DeltaScene数据构造流程](http://img.318050.com/uploads/20260528/17799423486a17c3cc40295461231689.webp) 对于原生3D编辑，这一步至关重要——模型真正需要学习的不仅是“图像变化”，而是同一个编辑在不同视角下如何始终保持空间一致性。 ## 3D编辑首次接近实时交互从实验结果看，这条路线确实奏效。在DeltaScene测试集上，VGGT-Edit在语义一致性、多视角稳定性、推理速度三项指标上均超越现有方法。尤其在添加家具、调整位置、修改材质等复杂任务中，许多传统方法仍会出现明显的“贴图感”和几何漂移，而VGGT-Edit的结果明显更像一个真实稳定的3D空间。 ![不同3D编辑任务的定性比较](http://img.318050.com/uploads/20260528/17799423486a17c3ccd84f8581215128.webp) 更值得关注的是速度——论文显示，VGGT-Edit单次编辑仅需约**5秒**，相比需要长时间优化的传统方法，最高可实现**120倍**加速。这意味着3D编辑首次真正开始接近实时交互。对于机器人、数字孪生、AR/VR等领域，这种变化意义重大——只有当编辑速度足够快，3D世界才可能成为“可交互”的世界。 ![在DeltaScene数据集上的定量结果](http://img.318050.com/uploads/20260528/17799423496a17c3cd8d661037223490.webp) ## 模型开始真正理解“空间变化” 论文中还包含一个极具启发性的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。 ![对未见过的指令进行泛化](http://img.318050.com/uploads/20260528/17799423496a17c3cdee95d701864162.webp) 这说明VGGT-Edit学到的并非固定模板——它真正开始理解文本语义如何映射到3D空间变化。而这一点可能比“生成3D”本身更重要。因为对于空间智能而言，未来真正的核心能力或许不是“生成一个世界”，而是能否像人一样，自由、稳定、实时地修改这个世界。 VGGT-Edit正在将这一愿景向前推进一大步。 *论文链接：https://arxiv.org/abs/2605.15186*

北大港中文联合评测：VGGT-Edit 5秒3D编辑，120倍加速

相关阅读

最新教程

最新资讯