Meta VLM³深度估计准确率0.9,实现3D统一建模
三维空间感知是自动驾驶、机器人、三维重建等领域的核心基础能力——本质上是从二维图像中还原真实世界的空间结构、尺度信息与几何关系。这与图像分类、目标检测等二维视觉任务有本质区别:三维感知不仅需要语义理解,还必须具备精确的空间推理与几何建模能力,因此长期被视为计算机视觉领域最具挑战性的方向之一。
近年来,视觉语言模型(VLMs)凭借统一架构与大规模预训练,在分类、检测、分割等二维任务上取得了显著进展。然而,在深度估计、像素匹配、相机位姿求解这类需要细粒度空间推理的任务中,标准VLM的表现远不如专用三维模型。当前的现实是:三维视觉领域尚未出现类似二维视觉中的通用基础模型,研究者们仍在针对每个任务单独设计网络结构、损失函数和训练策略。
不过,最近有研究意外发现,未经特殊三维改造的标准VLM已经具备一定程度的像素级深度感知能力。这一发现暗示,通用视觉语言模型的三维理解潜力可能远超预期,同时也引出一个关键问题:在不添加额外编码器、不依赖视觉提示、不部署任务专属模块的前提下,标准VLM究竟能胜任多少细粒度三维感知任务?
为了回答这个问题,Meta与普林斯顿大学联合开发了VLM³(VLM Cubed)框架。该研究以标准视觉语言模型为基础,通过统一的数据组织方式与训练范式,将物体级三维理解、公制深度估计、像素匹配和相机位姿求解这四类任务整合在一起,系统评估了标准VLM在细粒度三维感知中的实际能力。
相关成果已以「VLM3: Vision Language Models Are Native 3D Learners」为题,发表于预印本平台arXiv上。
几个关键成果:
- 在SpatialRGPT评测基准上,VLM³-4B未使用额外编码器,架构更精简,却超越了参数规模更大的SpatialRGPT-8B。
- 相比此前最优的视觉语言模型DepthLM-7B,VLM³-4B将平均精度δ₁从0.84提升至0.90,与专业深度估计模型UnidepthV2持平。
- VLM³将基线视觉语言模型的端点误差(EPE)降低了一个数量级,性能超过DKM、RoMa等经典专家模型。
- 在AUC₃₀°指标上,VLM³从接近随机水平的5%跃升至94%,超越VGGT,与DA3-Giant相当。
面向多任务三维感知的混合数据集
三维感知任务涉及多个变量——场景尺度、视角变化、相机参数、几何关系,每一项都对训练数据的质量与覆盖范围提出了高要求。为了支撑统一三维表征的学习,研究团队构建了一套覆盖单视图与多视图场景的混合数据体系,整体涵盖公制深度估计、物体级三维理解、以及像素匹配与相机位姿估计三类任务。
在公制深度估计方面,他们采用了大规模多场景混合数据集。基础数据继承自DepthLM,包含Argoverse2、Waymo、NuScenes、ScanNet++、Taskonomy、HM3D、Matterport3D等主流三维场景数据,并额外引入了1000万张自建室外街景图像,将训练规模从1600万张扩展至2600万张。最终模型训练使用了约3200万张图像和3.2亿个深度标注点,覆盖室内、室外、街景以及复杂开放环境等多种场景。
与以往做法不同,VLM³没有采用均匀采样,而是根据数据集规模、学习难度和泛化价值设计了差异化训练权重。实验发现,小规模数据集在混合训练中更容易过拟合,单纯堆数据量并不总能带来性能提升。因此,研究团队适当降低了部分小规模数据集的训练权重,优先保障整体泛化能力。
物体级三维理解任务则完全沿用SpatialRGPT的标准数据集,包含约100万张训练图像及配套的定性与定量问答样本。该数据集目前已成物体级三维理解的重要评测基准,其中许多图像缺少相机内参,反而更贴合实际应用场景,能够更真实地检验模型的空间推理能力。
像素匹配和相机位姿估计任务方面,研究团队自行构建了一个统一的多视图训练数据集。他们将BlendedMVS、DynamicReplica、SailVOS3D、ScanNet++等14个主流数据源整合在一起,总计约990万组图像对。为保证训练质量,仅保留图像间可视重叠区域超过25%的样本,同时从ScanNet++中预留了30个独立场景作为专属测试集,避免训练集与测试集之间的数据泄露。数据集的权重配置基于各数据源原始图像对数量,进一步增强了训练的稳定性与适配性。
VLM³模型:最小改动原则下的统一三维学习
VLM³的设计目标十分明确——并非打造全新的三维视觉架构,而是在保持标准视觉语言模型原生结构不变的前提下,检验其在细粒度三维任务中的能力边界。整个框架遵循「最小改动原则」:不引入额外编码器、不设专属损失函数、不加任务定制模块,重点从输入表示、空间定位方式和数据组织策略三个方面进行优化。
研究以Qwen3-VL-4B作为基础模型,全程采用标准监督微调(SFT)范式进行训练,与现有视觉语言模型的预训练与微调流程保持一致。这样设计的优势在于,框架可直接兼容主流VLM体系,无需额外搭建专用训练管线。
VLM³架构概览
首先讨论第一个设计。针对不同数据源之间相机参数不一致的问题,VLM³提出了统一的图像标准化策略。研究发现,多源三维数据集之间常存在明显的相机内参差异,部分网络图片甚至缺失相机参数,这会影响模型学习空间几何关系。为此,框架将所有输入图像统一映射到标准焦距空间,对于缺失内参的数据则采用现有的单图像标定模型进行估计,从而减少成像条件差异带来的分布偏移。
第二个关键设计是统一的文本化空间定位范式。传统三维视觉模型通常依赖额外视觉提示、渲染标记或专门设计的位置编码模块来实现像素级定位,而VLM³则将图像坐标归一化到统一坐标空间,直接用文本形式表达位置关系。这样一来,模型可以利用原生的语言建模能力完成像素定位、区域定位和跨视图对应关系学习,无需引入额外视觉模块。同时,单张图像可同时包含多个定位问答样本,训练效率显著提高。在深度估计任务中,单样本所能提供的监督信号比传统方案提升了约10倍,计算开销却几乎不变。
第三个核心设计是精细化的数据混合策略。与许多依赖复杂网络结构来提升性能的方法不同,VLM³将优化重点放在了数据组织层面。研究团队通过大量实验发现,盲目扩大数据规模或采用均等权重混合训练,往往会导致性能饱和甚至退化。相反,根据数据规模和任务特征设计差异化采样策略,能更有效地提升模型的三维表征能力。因此,数据配比被视为整个框架的重要组成部分,而非训练过程中的辅助因素。
基于这些设计,VLM³实现了四类三维任务的统一建模。深度估计通过文本化像素定位构建监督样本;物体级三维理解用文本坐标框替代专用掩码编码器;像素匹配任务将跨视图对应关系转化为坐标预测问题;相机位姿估计则将复杂的几何参数拆解为平移距离、平移方向、旋转角度等文本问答形式。原本需要不同模型分别处理的任务,最终被统一到了标准VLM的自回归生成框架中。
VLM³使用示例
首次令标准视觉语言模型在多项细粒度三维任务上实现高精度三维理解
为系统评估VLM³的效果,研究团队围绕公制深度估计、物体级三维理解、像素匹配和相机位姿估计四类任务进行了实验,分别与通用视觉语言模型和当前主流专家模型进行了对比。
在公制深度估计上,研究选取了9个公开数据集与通用VLM比较,同时在5个代表性基准上对标了当前最优的专家模型,主要评估δ₁指标。结果如下表所示,VLM³-4B全面超越了此前代表性方法DepthLM-7B,平均精度从0.84提升至0.90,在多个数据集上刷新了纪录。整体性能已达到UnidepthV2、MoGe-2等专业深度估计模型的水平。
VLM³与VLMs对比结果
在物体级三维理解任务上,研究完全复用了SpatialRGPT的评测体系。结果显示,参数规模仅为4B的VLM³在定性与定量评测中均超越了8B规模的SpatialRGPT。后者依赖额外掩码编码器实现空间定位,而VLM³仅靠统一的文本定位机制就取得了更优结果,说明统一文本化建模在空间推理任务中确实有效。
像素匹配任务采用UFM评测体系,核心指标为端点误差(EPE)。实验表明,VLM³相比基础VLM将误差降低了一个数量级,超过DKM、RoMa等经典专家模型,仅略逊于当前最优的UFM。这说明,统一的文本化建模方式不仅适用于单视图场景,也能有效学习跨视图的几何对应关系。
VLM³与专家视觉模型对比
在相机位姿估计任务上,研究分别在ETH3D和ScanNet++数据集上采用AUC₃₀°指标进行评估。结果显示,VLM³将基础VLM的性能从接近随机预测水平提升至94%的AUC₃₀°,超越VGGT、MapAnything等主流方法,接近当前最优DA3-Giant的性能水平。
结语
长期以来,三维视觉研究基本沿着「任务驱动」的路径推进:深度估计、像素匹配、位姿求解各自发展专用模型。VLM³则展示了一种不同的可能性——不引入额外编码器、不设专属损失函数、不加复杂视觉提示机制,仅通过标准化图像处理、文本化空间建模和精细化数据策略,标准视觉语言模型便能在多项细粒度三维任务上达到甚至超越部分专家模型。这一结果说明,通用视觉语言模型的三维表征能力可能远超预期,也为三维视觉从「任务专属优化」迈向「统一基础模型」提供了新的实证依据。




