VGGT-Edit深度评测:3D场景编辑效率提升120倍的权威榜单

2026-05-28阅读 0热度 0
ai

当前3D生成技术能“看见”世界,却难以“重塑”世界——这正是该领域面临的核心瓶颈。

5秒完成3D场景编辑,北大&港中文&上海AILab搞出VGGT-Edit,120倍加速太炸了

从NeRF到3D Gaussian Splatting,再到VGGT、π³等前馈式重建模型,3D场景的生成效率已实现飞跃。如今,仅凭数张图片,即可在数秒内构建出完整的3D场景。

然而,生成能力的突破也暴露了编辑能力的短板。现有模型能够解析三维结构,却难以执行精确的空间指令:例如将椅子移至窗边、移除特定物体,或将灰色皮质沙发替换为白色长绒款式。

更棘手的是,复杂编辑任务常导致模型输出崩溃:物体在多视角下时隐时现,未修改的背景区域发生畸变,整体一致性难以维持。

针对这一难题,由北京大学、香港中文大学、上海人工智能实验室及南洋理工大学等机构组成的研究团队,推出了原生3D编辑框架VGGT-Edit。

其核心理念清晰而直接:摒弃迂回的2D处理路径,在3D表征空间内直接完成编辑操作。

在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性与推理速度三大关键指标上均超越现有方案,单次编辑耗时仅约5秒,最高可实现120倍的速度提升。

瓶颈根源:2D编辑思维的局限

主流3D编辑方法大多沿用“2D思维”:将场景分解为多个视角的2D图像,分别编辑后再试图融合回3D。

这种视角独立的处理方式,不可避免地引发一系列问题:

  • 物体在某一视角被删除;
  • 切换角度后物体再度出现;
  • 背景区域发生非预期位移;
  • 物体边缘出现重影与闪烁伪影。

其结果往往更像是“多角度贴图拼接”,而非一个几何稳定的三维空间。

对于机器人导航、AR/VR应用及空间智能等领域而言,这种不一致性是致命的——它们需要的是跨视角始终如一的3D世界,而非某个特定角度的正确画面。

原生3D编辑:从理论迈向实用

VGGT-Edit的解决思路直指要害:既然问题源于2D转换,便应彻底在3D域内操作。

该框架基于VGGT类前馈重建模型构建,继承了其高效、快速的3D表示能力。但团队并未选择全场景重新生成,而是引入了一种精巧的残差场预测(Residual Field Prediction)机制。

简而言之,模型首先保留原始场景稳定的3D结构,随后仅学习需要发生变化的局部区域,例如:

  • 物体的位移;
  • 材质的替换;
  • 特定物体的移除;
  • 新家具的添加。

这些编辑操作被表述为一个简洁的公式:新场景 = 原场景 + 局部残差变化

这一设计带来了显著优势:由于大部分区域无需变动,模型无需重构整个场景,仅聚焦于局部修改。因此,未编辑的背景区域能保持高度稳定,这是VGGT-Edit与众多现有方法最显著的区别之一。

文本语义与3D空间的深度对齐

研究团队发现,若仅将文本指令简单输入模型,常导致模型理解“编辑意图”却无法定位“编辑区域”。

为此,VGGT-Edit设计了一套深度同步文本注入(Depth-Synchronized Text Injection)机制。

其本质是让文本语义与3D空间特征在相同的深度层级上持续交互与同步。

不同于传统方法仅在前期注入文本信息,VGGT-Edit在多个关键网络层持续融合文本语义,确保模型在整个生成过程中始终明确:

  • 当前应修改哪个空间区域;
  • 修改的具体目标是什么;
  • 该区域在3D空间中的精确位置。

此外,团队还设计了视角重要性加权策略。鉴于不同视角的可靠度不同(如遮挡、局部可见等情况),VGGT-Edit能自动评估各视角可信度,从而生成更稳定的多视角编辑结果。

专为3D编辑任务设计的编辑头

除了整体框架,VGGT-Edit另一个核心组件是专门针对3D编辑优化的编辑头(Editing Head)

研究发现,VGGT类模型原有的重建头更侧重于“场景复原”,而3D编辑的核心需求是:在保持全局稳定的前提下,精准修改局部区域。

因此,VGGT-Edit额外引入了一个编辑分支,专门预测场景中的局部变化。该编辑头直接作用于3D表示空间,并输出对应的残差场。本质上,它学习的是:

  • 哪些区域应保持原状;
  • 哪些区域需执行编辑;
  • 编辑后如何保证多视角一致性。

相较于全场景重生成,这种聚焦局部的编辑方式更稳定、更高效,也是赋予VGGT类前馈模型编辑能力的关键创新。

DeltaScene:专为3D编辑训练的十万级数据集

为训练VGGT-Edit,团队构建了全新的3D编辑数据集DeltaScene,规模近十万组,涵盖客厅、办公室、住宅及商业空间等多种场景。

关键在于,其数据生成流程实现了高度自动化。利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max等工具,自动完成指令生成、目标识别、多视角编辑及3D一致性过滤,最终产出满足“多视角几何一致”要求的高质量训练数据。

对于原生3D编辑而言,这一步至关重要——模型需要学习的不仅是图像层面的变化,更是同一编辑指令在不同视角下如何保持空间一致性。

迈向实时交互的3D编辑

实验结果验证了该路径的有效性。在DeltaScene测试集上,VGGT-Edit在语义一致性、多视角稳定性和推理速度上均优于现有方法。

尤其在添加家具、调整物体位置、修改材质等复杂任务中,传统方法常产生明显的贴图感与几何漂移,而VGGT-Edit的输出则更接近真实、稳定的3D空间。

速度优势更为突出:VGGT-Edit单次编辑仅需约5秒,相比依赖耗时优化的传统方法,最高可实现120倍加速。

这意味着3D编辑首次接近实时交互水平。对于机器人、数字孪生、AR/VR等领域,这一进展意义重大——只有当编辑速度足够快,3D世界才能真正成为可实时操控的交互环境。

理解“空间变化”的模型能力

论文中一项有趣的实验揭示了模型的泛化能力:研究人员输入了一条未在训练中出现的指令——“将中间椅子顺时针旋转90度”,模型依然成功完成了编辑。

这表明VGGT-Edit所学并非固定模板,而是开始真正理解文本语义如何映射到3D空间的变化。

这种能力或许比“生成3D场景”更为重要。对于空间智能的未来而言,关键或许不在于“创造一个世界”,而在于能否像人类一样,自由、稳定、实时地修改与塑造这个世界。VGGT-Edit,正将这一愿景向前推进了一步。

论文链接:https://arxiv.org/abs/2605.15186

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策