北大港中文联合评测:VGGT-Edit 5秒3D编辑,120倍加速 2026-05-28阅读 0热度 0 ai # 3D世界具备“观察力”,但缺乏“改造力” 从NeRF到3D Gaussian Splatting,再到VGGT、π³这类前馈式3D重建模型,整个领域的技术迭代显著提速——仅凭少量图像,数秒内即可重建出完整的3D场景。 然而瓶颈同样明显:这些模型虽能读懂三维结构,却无法直接操控它。你可以让它复现一间房间,却难以准确下达指令:将座椅挪至窗侧、移除中间的桌子、把灰色皮质沙发换成白色长毛款式。 更棘手的是,一旦涉及复杂编辑,现有方法往往快速失效——某个视角椅子消失,换一个角度椅子又浮现;未修改的背景区域也连带发生扭曲。 针对这一痛点,来自**北京大学**、**香港中文大学**、**上海AI Lab**、**NTU**等机构的研究团队,提出了一套原生3D编辑框架:**VGGT-Edit**。 核心逻辑只有一句话—— **不再折返2D,直接在3D空间内执行编辑操作。** 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三项指标上均超越现有方法,单次编辑仅需约**5秒**,最高实现**120倍**加速。 ## 症结始终在于2D思维 当下多数3D编辑方法本质上仍是“2D路径”——先将场景拆解为多张2D图像,逐帧编辑,再拼合回3D。 但每个视角独立处理,极易引发: - 某个视角椅子已被移除; - 切换视角后椅子重新显现; - 背景区域出现整体漂移; - 物体边缘产生重影与闪烁。  大量结果更像是“在不同角度强行拼接的图片”,而非稳定的3D空间。 对于机器人、AR/VR、空间智能等应用场景,这几乎是致命缺陷——这些领域真正需要的不是“某个视角看起来正确”,而是整个3D世界的持续一致性。 ## 原生3D编辑从概念走向实用 VGGT-Edit的核心策略极其直接:既然问题源于2D,就不再绕回2D。 整个框架构建于VGGT-Like前馈式重建模型之上,继承了其快速高效的三维表达能力。但关键创新在于,团队并未选择从头生成整个场景,而是引入了一种精巧机制: **残差场预测(Residual Field Prediction)。**  类比来说:模型先保留原始场景的稳定3D结构,仅学习“哪些区域需要变化”,例如: - 椅子向右移动; - 沙发材质替换; - 删除某个物体; - 新增一件家具。 这些变化被表达为:**新场景 = 原场景 + 局部残差变化** 这一设计的关键优势在于——大部分区域无需变动,因此模型无需“重新生成整个世界”,只需修改局部。结果就是未修改的背景区域保持极高的稳定性。 这也是VGGT-Edit与多数现有方法最显著的差异之一。 ## 文本语义首次真正“对齐”3D空间 研究团队发现,若仅将一句文本输入模型,常会出现一种情况——模型明白“你想改什么”,却不知道“该改哪里”。 为解决这一问题,VGGT-Edit设计了一套关键机制: **深度同步文本注入(Depth-Synchronized Text Injection)** 本质上,它让文本语义与3D空间特征在同一个深度层级中持续同步。 传统方法通常只在前期注入一次文本信息,而VGGT-Edit在多个关键层持续融合文本语义。这样一来,模型在整个3D生成过程中始终明确: - 当前应修改哪个区域; - 修改目标是什么; - 空间坐标在哪里。 同时,团队还专门设计了“**视角重要性加权**”——因为并非所有视角同样可靠,有些角度可能被遮挡,有些仅能看到物体局部。 VGGT-Edit自动判断哪些视角更可信,最终使多视角编辑结果更加稳定。 ## 专为“3D编辑”设计的编辑头 除整体框架外,VGGT-Edit还包含一个关键模块——**专门面向3D编辑任务的编辑头**。 研究团队发现,对于VGGT-Like模型,原始的重建Head更关注“如何恢复场景”,但3D编辑的真正难题是:**如何在保持整体稳定的前提下,仅修改局部区域。** 因此,VGGT-Edit额外设计了一套编辑分支,专门预测场景中的局部变化。 该编辑Head直接作用于3D表示空间,输出对应的残差场变化。本质上,它学习的是: - 哪些区域应保持不变; - 哪些区域需要编辑; - 编辑后如何保持多视角一致性。 相较于直接重新生成整个场景,这种方式更稳定、更高效——这也是让VGGT-Like前馈重建模型具备编辑能力的关键一步。 ## 10万规模数据集专训“3D编辑” 为训练VGGT-Edit,团队专门构建了一个全新的3D编辑数据集**DeltaScene**,规模接近10万组,覆盖客厅、办公室、住宅、商业空间等多种场景。  更关键的是,整个数据生成流程高度自动化。 团队利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自动完成编辑指令生成、目标识别、多视角编辑、3D一致性过滤,最终产出真正满足“多视角几何一致”的训练数据。  对于原生3D编辑,这一步至关重要——模型真正需要学习的不仅是“图像变化”,而是同一个编辑在不同视角下如何始终保持空间一致性。 ## 3D编辑首次接近实时交互 从实验结果看,这条路线确实奏效。 在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性、推理速度三项指标上均超越现有方法。 尤其在添加家具、调整位置、修改材质等复杂任务中,许多传统方法仍会出现明显的“贴图感”和几何漂移,而VGGT-Edit的结果明显更像一个真实稳定的3D空间。  更值得关注的是速度——论文显示,VGGT-Edit单次编辑仅需约**5秒**,相比需要长时间优化的传统方法,最高可实现**120倍**加速。 这意味着3D编辑首次真正开始接近实时交互。 对于机器人、数字孪生、AR/VR等领域,这种变化意义重大——只有当编辑速度足够快,3D世界才可能成为“可交互”的世界。  ## 模型开始真正理解“空间变化” 论文中还包含一个极具启发性的实验。研究人员输入了一条训练中从未出现过的指令——“将中间椅子顺时针旋转90度。” 结果模型依然成功完成了编辑。  这说明VGGT-Edit学到的并非固定模板——它真正开始理解文本语义如何映射到3D空间变化。 而这一点可能比“生成3D”本身更重要。因为对于空间智能而言,未来真正的核心能力或许不是“生成一个世界”,而是能否像人一样,自由、稳定、实时地修改这个世界。 VGGT-Edit正在将这一愿景向前推进一大步。 *论文链接:https://arxiv.org/abs/2605.15186*