D场景重建效率飙升33倍！苏黎世联邦理工新突破

2026-06-11阅读 0热度 0

自动驾驶

瑞士苏黎世联邦理工学院（ETH Zürich）与微软研究院联合团队，于2026年6月3日发布了一项新研究（论文编号arXiv:2606.05102），推出名为ZipSplat的三维场景重建框架。核心突破在于：在不低于甚至超越现有重建质量的前提下，将所需的基础图形单元数量压缩了最高33倍。无论你是关注AR/VR、自动驾驶、数字孪生，还是单纯好奇“手机照片如何转化为3D场景”，这个问题都触及本质——描述一个三维世界，真的需要海量数据吗？

三维场景重建的核心任务，是让计算机根据几张不同视角的照片，自动“脑补”出完整的三维空间结构，并能从任意新视角渲染出逼真画面。这类似于你看到一栋房子的正面、左侧和右侧照片，大脑自动推演背面的样貌——计算机做着类似工作，但精度要求更高。

当前主流的三维高斯泼溅（3D Gaussian Splatting，简称3DGS）技术，将三维空间表示为大量椭圆形的彩色体素，专业上称为“高斯基元”。每个体素携带位置、尺寸、颜色与透明度参数，叠加后即可渲染出逼真图像。然而，现有的“前馈式”方法（无需逐场景优化，仅靠一次神经网络推理输出结果）普遍遵循一个固守惯例：为每个输入像素生成一个高斯基元。

这种设计逻辑看似自洽，实则存在显著冗余。一面白墙与一件精雕细琢的古董，若占据相同像素数，会被分配等量的体素——即便白墙根本无需如此细致的描述。更棘手的是，从多个角度拍摄同一面墙，每张照片都会为其生成一堆体素，导致大量重复。ZipSplat的核心思路，是彻底打破“像素数量决定体素数量”的绑定关系——不再追问“每个像素对应什么体素”，而是回归本源：“整个场景究竟需要哪些体素？”

一、三维重建的“像素诅咒”：数量多未必质量优

以拍摄一间客厅为例。假设用一台1080P相机从6个角度拍摄，每张照片约200万像素，现有前馈式方法将生成约1200万个高斯基元——即便客厅大部分区域是平坦的墙壁、地板和天花板，这些区域用几个大气泡就能完美覆盖。真正需要精细刻画的，其实是沙发纹理、书脊轮廓、窗帘褶皱这些细节密集处。

但现有系统不加区分，像素所在之处即塞入体素。这引发三大连锁效应：平坦区域与复杂区域获得相同资源配给，分配严重失衡；多视角拍摄同一墙面时，系统重复生成多份重叠体素，输入图像越多，体素数量线性暴增，质量却几乎停滞；所有体素被“禁锢”在各自治的观察射线上，对相机无法观测的遮挡区域基本无能为力。

这三个问题指向同一个根源：将三维场景的表达能力捆绑在二维像素网格上。ZipSplat研究团队给出的方案，并非修补现有框架，而是从根本上替换底层逻辑。

二、场景令牌：将照片“压缩”为场景的精华摘要

ZipSplat的工作流程，可类比图书馆管理员整理藏书。传统管理员按书架位置排列——第一排第一列放一本，第一排第二列放一本，无论两本书是否为同一复印本，也不论重要性，每个格子必须有一本。ZipSplat的管理员则不同：首先浏览全部藏书，合并内容相似的，剔除重复，最终根据内容价值分配书架空间——精彩的书多占几格，简单的薄册子共享一格。

具体到技术实现，ZipSplat分三个阶段推进。

第一阶段：提取视觉令牌。系统接收N张输入图像，利用一个预训练的多视角基础模型（研究团队选用DA3-Giant，专精多视角图像处理的神经网络），从每张图像中提取密集的“视觉令牌”。可以将其理解为图像每个小区域的特征描述卡片，囊括颜色、纹理、深度等综合信息。这些令牌呈多尺度结构，既能捕捉细节，也能把握全局轮廓。

第二阶段：K-means聚类压缩。所有视觉令牌汇聚后，数量庞大且高度冗余——毕竟多张图像描述的是同一个场景。ZipSplat采用K-means聚类法，在特征空间中将相似令牌归并为K个“场景令牌”。这里的“相似”不指空间位置邻近，而是语义与几何特征相近——从三个不同角度拍摄的同一面墙，描述它们的令牌在特征空间中彼此趋近，最终合并为一个代表“那面墙”的场景令牌。K值由压缩比参数r控制，r=1.0表示不压缩，r=0.1意味着仅保留10%的令牌。关键在于，这个参数在推理时可随时调整，无需重新训练模型。

第三阶段：交叉注意力精炼。聚类本质上是有损压缩，平均化操作会模糊细节。为恢复损失的信息，每个场景令牌通过“交叉注意力”机制重新查询原始视觉令牌，相当于对照摘要笔记与原始详细资料，逐一核验被平均化的细节。随后，场景令牌之间通过“自注意力”相互沟通，让每个令牌掌握自身所处的全局场景上下文。

三、从令牌到气泡：不再沿射线放置，而是自由分布

完成令牌精炼后，每个场景令牌被送入一个两层的MLP（可视为轻量级变换器），解码为G个高斯基元的完整参数：三维位置、尺寸、旋转、不透明度与颜色系数。研究团队将G设定为32，即每个场景令牌生成32个气泡。

此处有一项关键设计：气泡的三维位置并非沿某条观察射线放置，而是通过一个特殊的激活函数直接映射到无约束的三维坐标。这好比传统方法是“沿楼梯扶手排列装饰品”——每个饰品必须依附在扶手上，而ZipSplat则是“将饰品摆放在房间中最合适的位置”——桌上、墙上、地上，完全不受约束。

自由放置的效果，在可视化对比中一目了然。现有的像素对齐方法生成的气泡分布，如同在地面铺展一张均匀网格，沙发与白墙的气泡密度毫无区别。ZipSplat生成的气泡则显著聚集于细节密集区——车轮辐条、雕像轮廓、装饰品边缘，而平坦墙壁与地板上仅稀疏分布几个大气泡，轻松覆盖。

研究团队还观察到一种有趣的自组织现象：同一场景令牌解码出的32个气泡，在没有明确空间监督的情况下，自动凝聚为空间上连贯的一组——在平坦表面形成宽松的大片覆盖，在复杂边缘处紧密排列以捕捉细节。这表明模型在训练中学会了让气泡依据场景几何进行自我组织。

四、训练时的三个“稳定器”：防止气泡漂出场景之外

自由放置带来一个新挑战：不受射线约束的气泡，若位置偏离，可能漂移到相机无法观测的区域，渲染损失梯度无法触及，导致无法修正，训练因此不稳甚至发散。为此，研究团队设计了三大配套机制。

第一，单向Chamfer几何损失。利用深度图将地面真实数据反投影为三维点云，然后计算每个气泡中心与最近真实三维点的距离之和，作为辅助损失函数，将漂移的气泡拉回真实场景表面附近。注意此处仅用“单向”——只惩罚气泡离真实点过远，而不惩罚真实点未被气泡覆盖。双向惩罚会迫使气泡均匀铺满所有点，重回僵硬的网格逻辑，破坏自适应分配的初衷。此外，对于已有效参与渲染的气泡，几何损失的梯度会被截断，防止几何先验压过精细的光度监督。

第二，耦合初始化。每个场景令牌解码出的32个气泡，初始时共享完全相同参数，如同32个双胞胎从同一起点出发。这迫使模型先学会粗略的整体放置，再逐步分化出个体差异，避免训练初期多个气泡相互干扰。同时，气泡的初始不透明度设置较低（约0.18），确保光度梯度能穿透浅层气泡抵达深层；初始位置则偏向第一个参考相机的正前方，确保早期梯度有效。

第三，渐进式训练调度。训练从2个视角开始，逐步增加至24个视角，让模型先建立双目立体视差的基础，再面对多视角冗余。压缩比r也从1.0按余弦曲线降至最小值，并在每个训练步骤中从当前最小值到1.0之间随机采样，使模型适应不同压缩程度下的工作状态，从而让r成为真正的推理时可调参数。最小压缩比的设置依据为rmin = 0.5√(2/N)，因为场景的独特内容随视角重叠呈亚线性增长。

五、实验数据：以数字说话

研究团队在两个主要数据集上评估了ZipSplat：DL3DV（含140个测试场景）和RealEstate10K（含1600个测试场景），并在6、12、24个输入视角下分别测试，保留8个目标视角用于评估。

在DL3DV上，6个视角输入时，无需相机位姿的ZipSplat，PSNR（峰值信噪比，数值越高图像质量越佳）达到25.24 dB，而同样不依赖位姿的YoNoSplat仅为24.10 dB，差距超过1.1 dB。更重要的是，ZipSplat仅使用62K个高斯基元，YoNoSplat则用了301K个，体素数量减少约5倍。随着输入视角从6增加至24，ZipSplat的PSNR基本稳定在24 dB上下，而YoNoSplat从24.10一路跌至22.01，DA3（同一骨干网络的像素对齐版本）也从23.77降至21.69。这意味着像素对齐方法在输入视角增多时，体素数量线性增长（从301K增至1.2M、从1.5M增至6.1M），质量却不升反降——大量重复观测不仅无益，反而形成干扰。ZipSplat通过聚类合并冗余，在24个视角时仅用249K个高斯基元，质量反超所有对比方法。

在RealEstate10K上，无需位姿的ZipSplat以26.20 dB超越YoNoSplat（24.99 dB）1.2 dB，并以62K个高斯基元超越需要真实位姿的DepthSplat（393K个高斯基元，24.16 dB）2 dB。当提供真实位姿时，ZipSplat进一步提升至27.19 dB。

研究团队还测试了跨数据集的泛化能力，将仅在DL3DV和RealEstate10K上训练的ZipSplat零样本应用于Mip-NeRF360和ScanNet++。在32至128个视角的大规模输入下，ZipSplat在Mip-NeRF360上从21.72 dB稳步提升至22.29 dB，而DA3从20.94跌至20.19，AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上，零样本条件下ZipSplat达到18.1 dB，远超YoNoSplat的16.01 dB。

ZipSplat还支持一种“令牌测试时优化”：在拥有真实位姿时，冻结解码器，仅优化场景令牌本身（而非所有高斯基元参数），50步优化（使用一块4090 GPU约需3秒）即可额外提升约5 dB的PSNR，完整收敛可提升5.8 dB，并将LPIPS（感知相似度损失）减半。

六、压缩比的“旋钮效应”：一个模型覆盖全场景

ZipSplat最吸引人的特性之一，是推理时的可调性。通过调整压缩比r，单个训练好的模型可以产出从62K到1.3M个高斯基元的各种规模重建，在质量与效率之间自由权衡，完全无需重新训练。

在质量-效率曲线上，ZipSplat明显优于所有对比方法：要达到YoNoSplat的质量，仅需其1/33的高斯基元数量；使用6倍更少的高斯基元，还能额外获得约2.1 dB的PSNR提升。

压缩的视觉效果同样具说服力：在1×、2×、4×压缩下，渲染结果依然清晰锐利。而令牌分布图则显示出越来越粗糙的空间覆盖——模型并非简单模糊图像，而是保留了最有价值的信息。

不同的令牌选择策略对压缩效果也有影响。在温和压缩（r≥0.6）时，K-means聚类、均匀步长采样和随机采样三种方法的差距在0.1 dB以内，因为后续的交叉注意力能从原始令牌中找回足够的细节。但激进压缩（r=0.1）时，K-means以0.45 dB领先均匀步长，以0.79 dB领先随机采样。原因在于，K-means聚类时会跨越多个视角合并冗余令牌——在24视角、r=0.1时，每个K-means聚类平均横跨4.2个视角，而非像随机采样那样直接丢弃整个视角。

在极端压缩（r=0.01）下，ZipSplat会出现明显失效：令牌数量过少，无法覆盖整个场景，渲染图像出现大片空缺。这是系统的边界条件，实际使用中很容易避免。

七、效率数据：速度与内存的实际表现

在单块NVIDIA 4090（24GB显存）上的测试显示，24个视角输入时，ZipSplat的完整前向推理在0.8秒内完成，峰值显存低于8.1GB，处于完全实用的范畴。令牌压缩与高斯基元解码自身计算量微乎其微，系统瓶颈始终在多视角骨干网络。

随着视角数增加至192，使用视角依赖压缩调度时，峰值显存控制在17GB（而YoNoSplat已达24GB上限），生成约102K个高斯基元（9.3MB存储，401 FPS渲染速度），相比固定r=1.0的200万高斯基元（183MB，40 FPS），实现了10倍渲染加速和20倍存储节省。在24个视角时，调度压缩生成36K个高斯基元，占用3.3MB，渲染速度达到685帧/秒，完全满足实时移动端或网页端展示需求。

八、消融实验：每个设计选择都有意义

研究团队通过系统性消融验证了各个设计选择的贡献。在骨干网络完全相同的前提下，ZipSplat的令牌解码器相比像素对齐解码器，在6/12/24视角下稳定提升1.5至2.7 dB，且高斯基元数量减少13至25倍。这一改进在VGGT和DA3两种骨干网络上都成立，说明性能提升确实来自令牌化设计本身，而非骨干网络的差异。

关于每个令牌生成的高斯基元数量G，质量在G=32时已趋于饱和：G=64比G=32仅多0.03 dB，但高斯基元数量翻倍；G=8比G=32少0.19 dB，但高斯基元数量只有四分之一。综合考虑，G=32是最优平衡点。

在初始化和损失函数方面，耦合初始化贡献最大（去除后下降0.25 dB），不透明度偏置和位置偏置各贡献约0.14至0.15 dB，深度损失贡献约0.19 dB。而单向Chamfer几何损失属于训练稳定性的必要条件——去除会导致训练不稳定甚至发散，无法单独量化其贡献。

话说回来，ZipSplat做了一件在三维重建领域颇为罕见的事：它将“用多少个基本单元描述一个场景”这个问题，从一个由相机分辨率决定的固定值，转变为由场景内容驱动的自适应量。这意味着系统终于开始关注“这个场景究竟需要多少表达能力”，而非“相机拍了多少像素”。

对普通用户而言，这项技术的潜在影响相当直接：未来的手机3D扫描应用，能用更少的存储空间和更快的处理速度生成更高质量的场景模型；增强现实应用能在资源受限的设备上运行更复杂的场景；大规模三维地图数据库的存储与传输成本也能大幅下降。研究团队还指出两个值得进一步探索的方向：一是在每个高斯基元上附加语义特征用于场景理解（令牌化后的紧凑表示使特征存储成本大幅降低）；二是将令牌聚类机制推广到四维动态场景，跨时间维度合并冗余观测。

归根结底，这项工作提醒我们：在信息处理中，“更多”并不总是“更好”，找到恰当的表达粒度往往比一味堆砌更有价值。有兴趣深入了解技术细节的读者，可在arXiv平台通过论文编号2606.05102查阅完整原文。

Q&A

Q1：ZipSplat与现有三维重建方法相比，速度如何？
A：ZipSplat在24个输入视角下，完整前向推理在0.8秒内完成，生成的场景可达685帧/秒的实时渲染速度，存储仅需3.3MB。相比之下，YoNoSplat在192个视角时会产生9.6M个高斯基元（539MB、8.9 FPS），而ZipSplat采用视角依赖压缩调度仅生成102K个高斯基元，速度快约45倍，存储减少约20倍。

Q2：ZipSplat使用的K-means聚类与随机采样差距有多大？
A：在温和压缩（保留60%以上令牌）时差距极小，不超过0.1 dB，因为后续的交叉注意力能补回丢失的细节。但在激进压缩（仅保留10%令牌）时，K-means比随机采样高出0.79 dB。原因在于K-means可跨多个视角合并冗余令牌，而非随机丢弃整个视角的信息。

Q3：ZipSplat需要相机位姿信息才能工作吗？
A：不需要。ZipSplat可在完全未知相机位置与朝向的情况下运行，该模式下在RealEstate10K上可达26.20 dB，已超越大多数需相机位姿的对比方法。若提供真实相机位姿，性能进一步提升至27.19 dB，但位姿带来的增益相对有限，说明模型自身的场景理解能力已足够强。