Holi-Spatial 400万级空间多模态数据集全面测评

2026-06-19阅读 0热度 0

多模态数据

无需人工介入，直接从原始视频数据流自动生成3D重建、深度图、2D掩码、3D边界框、实例描述、3D定位与空间问答——Holi-Spatial的目标，是将“空间智能”的数据生产推向一个全自动、可规模化扩展的全新阶段。

Holi-Spatial 3D定位效果展示。系统从视频流中恢复场景几何结构，并定位开放词汇描述的目标对象。

Holi-Spatial整体亮点。自动化管线从原始视频流生成高质量3D空间标注，进而显著提升视觉-语言模型（VLM）的空间理解能力。

近两年，大模型在图像理解、OCR、多图推理、视频问答等任务上迭代速度极快。但一旦触及真实三维世界，模型往往陷入“看得见，但理不清空间关系”的窘境：物体位于左前方还是右后方？相机移动了多少距离？两个物体之间的空间拓扑是什么？同一物体换一个视角，还能稳定定位吗？

这些能力的背后，核心瓶颈在于：空间智能需要大规模、细粒度、带几何约束的3D数据作为支撑。

现有方法大多依赖ScanNet、ScanNet++等人工标注的3D数据集，再在其上生成问答对。这种做法虽能推动研究，却面临两个明显的天花板：一是数据规模难以增长，二是人工采集和标注导致的领域分布过于狭窄，模型难以真正在开放真实场景中泛化。

针对这一瓶颈，上海人工智能实验室、西北工业大学、上海交通大学等机构联合提出了Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence，该成果已被ICML 2026接收为Oral论文。核心贡献是一个全自动的空间数据构建框架，可从原始视频流出发，自动完成高质量3D几何重建、开放词汇语义感知、3D实例提升与场景级精修，最终构建出包含400万级空间标注的大规模3D语义数据集——Holi-Spatial-4M。

论文地址：https://arxiv.org/abs/2603.07660
项目主页：https://visionary-laboratory.github.io/holi-spatial/
代码仓库：https://github.com/Visionary-Laboratory/Holi-Spatial

概述

Holi-Spatial做的事情，是将原始视频自动转化为可用于训练空间智能模型的多层级监督数据，覆盖从几何重建到语义标注、从3D定位到空间问答的完整链路。

更关键的是，它并非只完成单一任务，而是构建了一个自动化的数据飞轮。团队基于当前各类基座模型的能力，尝试用全自动流程：视频输入，3D场景与空间语义标注输出；数据规模持续扩大，模型对3D空间的理解能力也随之提升。

为什么空间智能缺数据？

空间智能与“图片里有什么”是两个截然不同的概念。

它要求模型理解真实世界中的三维结构与空间关系。举个例子：相机从视角A到视角B，主要向哪个方向移动？某把椅子在当前观察者的左前方还是右后方？桌子和沙发之间的距离是多少？目标物体在不同视角下能否稳定定位？一个开放词汇描述的物体，能否在3D空间中被准确框出？

这些问题既需要语义理解，也需要几何一致性。单靠一张图片或普通的视频字幕，很难让模型学到可靠的3D空间概念。

过去，研究者通常基于人工采集的3D数据集来构造空间QA。这类数据集的问题在于成本高、类别有限、难以规模化扩展。例如，一些经典室内3D数据集的语义类别是封闭的，无法覆盖真实世界中长尾、细粒度的物体描述。

Holi-Spatial的出发点非常直接：如果能把网络上和公开数据中的原始视频，自动转化为高质量的3D空间监督信号，空间智能的数据瓶颈就有望被系统性缓解。

Holi-Spatial 怎么做？

Holi-Spatial的核心是一条三阶段的自动化数据构建管线。

Holi-Spatial数据构建框架。整体流程包括几何优化、图像级感知、场景级精修，最终生成Holi-Spatial-4M用于下游训练。

第一阶段：几何优化，把视频变成高质量3D结构

系统首先从原始视频中恢复相机内外参数，并利用空间基础模型获得初始稠密点云和深度先验。

但直接使用前馈深度模型会遇到一个典型问题：多视角投影时容易出现噪声、漂浮点和几何不一致。为此，Holi-Spatial引入了3D Gaussian Splatting进行逐场景优化，同时加入几何正则约束，使深度在多视角下更加一致。

这一步的目标并非仅追求视觉上美观的重建，而是为后续的3D框生成、实例聚合和空间QA构造提供可靠的几何基础。

第二阶段：图像级开放词表感知，把2D语义提升到3D候选

在每个视频场景中，系统采样关键帧，并使用VLM生成开放词表类别。为了提升不同帧之间类别的稳定性，Holi-Spatial维护了一个动态类别记忆，让模型优先复用历史帧中已经识别过的语义标签。

随后，系统使用SAM3生成开放词表实例分割mask，再结合优化后的3DGS深度，将2D mask反投影到三维空间，形成初始的3D物体候选。

论文特别处理了一个常见难点：2D mask边界误差和深度边缘噪声会导致3D框不准。Holi-Spatial通过mask腐蚀和mesh-guided depth filtering过滤掉不可靠的边缘点，从而减少3D漂浮点对物体框的干扰。

第三阶段：场景级精修，合并、验证、描述实例

初始的3D候选通常存在重复、碎片化和低置信度的问题。Holi-Spatial进一步在场景级进行粗到细的精修：

多视角合并：根据类别和3D IoU合并跨视角的重复实例。
地面/重力对齐：让3D框更符合真实场景中的垂直方向。
置信度过滤：高置信度实例保留，低置信度删除。
VLM Agent复核：对于边界置信度的实例，使用带有zoom-in和重分割工具的VLM Agent再次验证。
实例描述和QA生成：对最终实例生成细粒度caption，并构造3D grounding与空间QA样本。

这套流程最终输出的不只是一个重建模型，而是一组可以直接用于训练空间智能模型的多模态监督信号。

Holi-Spatial-4M：400万级空间标注

基于上述自动化管线，作者构建了Holi-Spatial-4M。

数据来源包括ScanNet、ScanNet++和DL3DV-10K等多源视频场景。与传统封闭类别的3D数据不同，Holi-Spatial-4M依托VLM的开放世界知识，能够覆盖更长尾、更细粒度的室内物体类别。

Holi-Spatial-4M数据统计，包括开放词汇物体分布、不同来源场景占比，以及空间QA任务类型分布。

实验结果：数据质量和训练增益都显著

Holi-Spatial首先在数据构建质量上进行了验证。作者在ScanNet、ScanNet++和DL3DV-10K中随机采样场景，并额外进行人工标注作为评估GT，对比深度、2D分割和3D检测的质量。

多视角深度可视化对比。相比LangSplat、M3-Spatial、Depth-Anything-V3等方法，Holi-Spatial生成的点云更干净，漂浮点和重影更少。

表1：Holi-Spatial在ScanNet、ScanNet++和DL3DV-10K上的数据构建质量评估。表格对应论文Table2，对比深度F1、2D分割IoU和3D检测AP25/AP50。

从表1可以看到，Holi-Spatial在三个数据源上同时提升了几何、2D语义和3D检测的质量。在ScanNet++上，Depth F1达到0.89，2D Seg IoU达到0.64，3D Det AP25/AP50达到81.06/70.05；在ScanNet上对应指标为0.98、0.66、76.60/67.00；在DL3DV-10K上也达到了0.78、0.71、62.89/52.67。与M3-Spatial、LangSplat、SA2VA、LLaVA-3D等基线相比，Holi-Spatial不仅在单个任务上领先，而且在深度、分割和3D框三个环节都保持了更稳定的整体质量。

开放词汇2D实例分割可视化。Holi-Spatial在边界完整性、遮挡场景和细粒度类别识别上表现更稳定。

ScanNet++上的3D目标检测可视化。相比SceneScript、LLaVA-3D、SpatialLM，Holi-Spatial预测的3D框更紧凑，类别更准确。

更重要的是，这些数据确实能提升VLM的空间能力。

作者使用Holi-Spatial-4M对Qwen3-VL系列模型进行微调。在空间QA任务上：

表2：Holi-Spatial-4M微调后，Qwen3-VL系列模型在MMSI-Bench、MindCube、ViewSpatial和SparBench-tiny上的空间QA结果。

在ScanNet++ 3D grounding任务上：

表3：Holi-Spatial-4M微调后，Qwen3-VL-8B在ScanNet++ 3D grounding任务上的结果。

这里的AP15、AP25和AP50分别对应不同IoU阈值下的3D grounding平均精度，阈值越高，对预测3D框的位置、尺寸和空间对齐要求越严格。可以看到，原始Qwen3-VL-8B在AP50上是13.50，经Holi-Spatial-4M微调后提升至27.98，增加了整整14.48个AP点；在AP15和AP25上也分别从19.82、16.80提升至35.52、31.94。

这说明Holi-Spatial-4M带来的提升并不仅仅是语言问答能力的增强，而是让模型更好地将文本指令、图像观察和3D空间位置对齐。论文将这种提升归因于1.2M的3D grounding样本提供的强监督：相比那些主要依赖单视角或锚定视角训练的基线模型，经过Holi-Spatial数据训练后的模型，在跨视角、不同空间深度和遮挡场景下，更容易定位到正确的物体。

Holi-Spatial构建的10类空间QA样例，覆盖相机运动、相机-物体关系、物体-物体关系和尺寸测量等任务。

这些QA并非简单的物体识别题。围绕空间关系，论文设计了10类问题：相机旋转、相机移动方向、相机移动距离、相机-物体方向、相机-物体距离、全局坐标系下的相机-物体距离、物体-物体距离、物体尺寸测量、局部观察者坐标系下的物体-物体方向，以及全局坐标系下的物体-物体方向。这样的设计让模型同时学习自我运动、视角变化、物体间相对位置和尺度估计。

论文还提到，训练这些QA数据对MindCube和MMSI-Bench中的视角切换、第一人称空间想象这类问题尤其有帮助。同时，Holi-Spatial会先用VLM描述物体外观，再将外观描述作为问题中的指代表达，相当于把“看清物体”和“在3D空间中定位物体”绑定起来，进一步增强了模型在空间问答中的视觉grounding能力。

3D grounding可视化。经过Holi-Spatial数据微调后，模型能在多视角和不同空间深度下更准确定位查询物体。

一个值得关注的点：自动化数据飞轮

Holi-Spatial最值得关注的地方，不仅仅是做出了一个大数据集，而是把“空间数据生产”这件事变成了一个自动化流程。

这一点对空间智能而言非常关键。

如果模型要进入机器人、AR、具身智能、场景编辑和真实世界导航等应用领域，靠有限的人工扫描数据很难覆盖足够多的环境、物体和空间关系。原始视频则更容易获得，数量远超传统的3D标注数据。

Holi-Spatial证明了一个方向：通过组合当前强大的几何模型、VLM、分割模型和3D优化方法，原始视频可以被自动转化成结构化、可训练、可评估的空间智能数据。

这也意味着，未来空间智能模型的提升，可能不仅来自更大的模型参数，更来自更强的数据构建系统。

也有哪些限制？

论文也讨论了当前系统的局限。

首先，Holi-Spatial依赖多个上游模型和逐场景优化，计算成本仍然较高。其次，在视角有限、运动模糊、严重遮挡、动态物体较多的视频中，几何恢复和实例标注仍可能退化。开放词汇语义标注也可能继承基础模型的偏差或错误，因此更稳健的验证机制和不确定性估计是未来的方向。

不过，作为一个自动化空间数据构建框架，Holi-Spatial已经展示出明确的潜力：当原始视频数据持续增长，空间智能模型也能获得更大规模、更细粒度、更接近真实世界的训练信号。

作者与机构

论文作者包括Yuanyuan Gao、Hao Li、Yifei Liu、Xinhao Ji、Yuning Gong、Yuanjun Liao、Fangfu Liu、Manyuan Zhang、Yuchen Yang、Dan Xu、Xue Yang、Huaxi Huang、Hongjie Zhang、Ziwei Liu、Xiao Sun、Dingwen Zhang、Zhihang Zhong。

机构覆盖上海人工智能实验室、西北工业大学、上海交通大学、北京大学、南洋理工大学、北京航空航天大学、四川大学、清华大学、香港中文大学、复旦大学、香港科技大学等。

Paper: https://arxiv.org/abs/2603.07660
Project: https://visionary-laboratory.github.io/holi-spatial/
Code: https://github.com/Visionary-Laboratory/Holi-Spatial