D场景重建效率飙升33倍!苏黎世联邦理工新突破
瑞士苏黎世联邦理工学院(ETH Zürich)与微软研究院联合团队,于2026年6月3日发布了一项新研究(论文编号arXiv:2606.05102),推出名为ZipSplat的三维场景重建框架。核心突破在于:在不低于甚至超越现有重建质量的前提下,将所需的基础图形单元数量压缩了最高33倍。无论你是关注AR/VR、自动驾驶、数字孪生,还是单纯好奇“手机照片如何转化为3D场景”,这个问题都触及本质——描述一个三维世界,真的需要海量数据吗?
三维场景重建的核心任务,是让计算机根据几张不同视角的照片,自动“脑补”出完整的三维空间结构,并能从任意新视角渲染出逼真画面。这类似于你看到一栋房子的正面、左侧和右侧照片,大脑自动推演背面的样貌——计算机做着类似工作,但精度要求更高。
当前主流的三维高斯泼溅(3D Gaussian Splatting,简称3DGS)技术,将三维空间表示为大量椭圆形的彩色体素,专业上称为“高斯基元”。每个体素携带位置、尺寸、颜色与透明度参数,叠加后即可渲染出逼真图像。然而,现有的“前馈式”方法(无需逐场景优化,仅靠一次神经网络推理输出结果)普遍遵循一个固守惯例:为每个输入像素生成一个高斯基元。
这种设计逻辑看似自洽,实则存在显著冗余。一面白墙与一件精雕细琢的古董,若占据相同像素数,会被分配等量的体素——即便白墙根本无需如此细致的描述。更棘手的是,从多个角度拍摄同一面墙,每张照片都会为其生成一堆体素,导致大量重复。ZipSplat的核心思路,是彻底打破“像素数量决定体素数量”的绑定关系——不再追问“每个像素对应什么体素”,而是回归本源:“整个场景究竟需要哪些体素?”
一、三维重建的“像素诅咒”:数量多未必质量优
以拍摄一间客厅为例。假设用一台1080P相机从6个角度拍摄,每张照片约200万像素,现有前馈式方法将生成约1200万个高斯基元——即便客厅大部分区域是平坦的墙壁、地板和天花板,这些区域用几个大气泡就能完美覆盖。真正需要精细刻画的,其实是沙发纹理、书脊轮廓、窗帘褶皱这些细节密集处。
但现有系统不加区分,像素所在之处即塞入体素。这引发三大连锁效应:平坦区域与复杂区域获得相同资源配给,分配严重失衡;多视角拍摄同一墙面时,系统重复生成多份重叠体素,输入图像越多,体素数量线性暴增,质量却几乎停滞;所有体素被“禁锢”在各自治的观察射线上,对相机无法观测的遮挡区域基本无能为力。
这三个问题指向同一个根源:将三维场景的表达能力捆绑在二维像素网格上。ZipSplat研究团队给出的方案,并非修补现有框架,而是从根本上替换底层逻辑。
二、场景令牌:将照片“压缩”为场景的精华摘要
ZipSplat的工作流程,可类比图书馆管理员整理藏书。传统管理员按书架位置排列——第一排第一列放一本,第一排第二列放一本,无论两本书是否为同一复印本,也不论重要性,每个格子必须有一本。ZipSplat的管理员则不同:首先浏览全部藏书,合并内容相似的,剔除重复,最终根据内容价值分配书架空间——精彩的书多占几格,简单的薄册子共享一格。
具体到技术实现,ZipSplat分三个阶段推进。
第一阶段:提取视觉令牌。系统接收N张输入图像,利用一个预训练的多视角基础模型(研究团队选用DA3-Giant,专精多视角图像处理的神经网络),从每张图像中提取密集的“视觉令牌”。可以将其理解为图像每个小区域的特征描述卡片,囊括颜色、纹理、深度等综合信息。这些令牌呈多尺度结构,既能捕捉细节,也能把握全局轮廓。
第二阶段:K-means聚类压缩。所有视觉令牌汇聚后,数量庞大且高度冗余——毕竟多张图像描述的是同一个场景。ZipSplat采用K-means聚类法,在特征空间中将相似令牌归并为K个“场景令牌”。这里的“相似”不指空间位置邻近,而是语义与几何特征相近——从三个不同角度拍摄的同一面墙,描述它们的令牌在特征空间中彼此趋近,最终合并为一个代表“那面墙”的场景令牌。K值由压缩比参数r控制,r=1.0表示不压缩,r=0.1意味着仅保留10%的令牌。关键在于,这个参数在推理时可随时调整,无需重新训练模型。
第三阶段:交叉注意力精炼。聚类本质上是有损压缩,平均化操作会模糊细节。为恢复损失的信息,每个场景令牌通过“交叉注意力”机制重新查询原始视觉令牌,相当于对照摘要笔记与原始详细资料,逐一核验被平均化的细节。随后,场景令牌之间通过“自注意力”相互沟通,让每个令牌掌握自身所处的全局场景上下文。
三、从令牌到气泡:不再沿射线放置,而是自由分布
完成令牌精炼后,每个场景令牌被送入一个两层的MLP(可视为轻量级变换器),解码为G个高斯基元的完整参数:三维位置、尺寸、旋转、不透明度与颜色系数。研究团队将G设定为32,即每个场景令牌生成32个气泡。
此处有一项关键设计:气泡的三维位置并非沿某条观察射线放置,而是通过一个特殊的激活函数直接映射到无约束的三维坐标。这好比传统方法是“沿楼梯扶手排列装饰品”——每个饰品必须依附在扶手上,而ZipSplat则是“将饰品摆放在房间中最合适的位置”——桌上、墙上、地上,完全不受约束。
自由放置的效果,在可视化对比中一目了然。现有的像素对齐方法生成的气泡分布,如同在地面铺展一张均匀网格,沙发与白墙的气泡密度毫无区别。ZipSplat生成的气泡则显著聚集于细节密集区——车轮辐条、雕像轮廓、装饰品边缘,而平坦墙壁与地板上仅稀疏分布几个大气泡,轻松覆盖。
研究团队还观察到一种有趣的自组织现象:同一场景令牌解码出的32个气泡,在没有明确空间监督的情况下,自动凝聚为空间上连贯的一组——在平坦表面形成宽松的大片覆盖,在复杂边缘处紧密排列以捕捉细节。这表明模型在训练中学会了让气泡依据场景几何进行自我组织。
四、训练时的三个“稳定器”:防止气泡漂出场景之外
自由放置带来一个新挑战:不受射线约束的气泡,若位置偏离,可能漂移到相机无法观测的区域,渲染损失梯度无法触及,导致无法修正,训练因此不稳甚至发散。为此,研究团队设计了三大配套机制。
第一,单向Chamfer几何损失。利用深度图将地面真实数据反投影为三维点云,然后计算每个气泡中心与最近真实三维点的距离之和,作为辅助损失函数,将漂移的气泡拉回真实场景表面附近。注意此处仅用“单向”——只惩罚气泡离真实点过远,而不惩罚真实点未被气泡覆盖。双向惩罚会迫使气泡均匀铺满所有点,重回僵硬的网格逻辑,破坏自适应分配的初衷。此外,对于已有效参与渲染的气泡,几何损失的梯度会被截断,防止几何先验压过精细的光度监督。
第二,耦合初始化。每个场景令牌解码出的32个气泡,初始时共享完全相同参数,如同32个双胞胎从同一起点出发。这迫使模型先学会粗略的整体放置,再逐步分化出个体差异,避免训练初期多个气泡相互干扰。同时,气泡的初始不透明度设置较低(约0.18),确保光度梯度能穿透浅层气泡抵达深层;初始位置则偏向第一个参考相机的正前方,确保早期梯度有效。
第三,渐进式训练调度。训练从2个视角开始,逐步增加至24个视角,让模型先建立双目立体视差的基础,再面对多视角冗余。压缩比r也从1.0按余弦曲线降至最小值,并在每个训练步骤中从当前最小值到1.0之间随机采样,使模型适应不同压缩程度下的工作状态,从而让r成为真正的推理时可调参数。最小压缩比的设置依据为rmin = 0.5√(2/N),因为场景的独特内容随视角重叠呈亚线性增长。
五、实验数据:以数字说话
研究团队在两个主要数据集上评估了ZipSplat:DL3DV(含140个测试场景)和RealEstate10K(含1600个测试场景),并在6、12、24个输入视角下分别测试,保留8个目标视角用于评估。
在DL3DV上,6个视角输入时,无需相机位姿的ZipSplat,PSNR(峰值信噪比,数值越高图像质量越佳)达到25.24 dB,而同样不依赖位姿的YoNoSplat仅为24.10 dB,差距超过1.1 dB。更重要的是,ZipSplat仅使用62K个高斯基元,YoNoSplat则用了301K个,体素数量减少约5倍。随着输入视角从6增加至24,ZipSplat的PSNR基本稳定在24 dB上下,而YoNoSplat从24.10一路跌至22.01,DA3(同一骨干网络的像素对齐版本)也从23.77降至21.69。这意味着像素对齐方法在输入视角增多时,体素数量线性增长(从301K增至1.2M、从1.5M增至6.1M),质量却不升反降——大量重复观测不仅无益,反而形成干扰。ZipSplat通过聚类合并冗余,在24个视角时仅用249K个高斯基元,质量反超所有对比方法。
在RealEstate10K上,无需位姿的ZipSplat以26.20 dB超越YoNoSplat(24.99 dB)1.2 dB,并以62K个高斯基元超越需要真实位姿的DepthSplat(393K个高斯基元,24.16 dB)2 dB。当提供真实位姿时,ZipSplat进一步提升至27.19 dB。
研究团队还测试了跨数据集的泛化能力,将仅在DL3DV和RealEstate10K上训练的ZipSplat零样本应用于Mip-NeRF360和ScanNet++。在32至128个视角的大规模输入下,ZipSplat在Mip-NeRF360上从21.72 dB稳步提升至22.29 dB,而DA3从20.94跌至20.19,AnySplat落后ZipSplat 2.3至2.7 dB。在ScanNet++上,零样本条件下ZipSplat达到18.1 dB,远超YoNoSplat的16.01 dB。
ZipSplat还支持一种“令牌测试时优化”:在拥有真实位姿时,冻结解码器,仅优化场景令牌本身(而非所有高斯基元参数),50步优化(使用一块4090 GPU约需3秒)即可额外提升约5 dB的PSNR,完整收敛可提升5.8 dB,并将LPIPS(感知相似度损失)减半。
六、压缩比的“旋钮效应”:一个模型覆盖全场景
ZipSplat最吸引人的特性之一,是推理时的可调性。通过调整压缩比r,单个训练好的模型可以产出从62K到1.3M个高斯基元的各种规模重建,在质量与效率之间自由权衡,完全无需重新训练。
在质量-效率曲线上,ZipSplat明显优于所有对比方法:要达到YoNoSplat的质量,仅需其1/33的高斯基元数量;使用6倍更少的高斯基元,还能额外获得约2.1 dB的PSNR提升。
压缩的视觉效果同样具说服力:在1×、2×、4×压缩下,渲染结果依然清晰锐利。而令牌分布图则显示出越来越粗糙的空间覆盖——模型并非简单模糊图像,而是保留了最有价值的信息。
不同的令牌选择策略对压缩效果也有影响。在温和压缩(r≥0.6)时,K-means聚类、均匀步长采样和随机采样三种方法的差距在0.1 dB以内,因为后续的交叉注意力能从原始令牌中找回足够的细节。但激进压缩(r=0.1)时,K-means以0.45 dB领先均匀步长,以0.79 dB领先随机采样。原因在于,K-means聚类时会跨越多个视角合并冗余令牌——在24视角、r=0.1时,每个K-means聚类平均横跨4.2个视角,而非像随机采样那样直接丢弃整个视角。
在极端压缩(r=0.01)下,ZipSplat会出现明显失效:令牌数量过少,无法覆盖整个场景,渲染图像出现大片空缺。这是系统的边界条件,实际使用中很容易避免。
七、效率数据:速度与内存的实际表现
在单块NVIDIA 4090(24GB显存)上的测试显示,24个视角输入时,ZipSplat的完整前向推理在0.8秒内完成,峰值显存低于8.1GB,处于完全实用的范畴。令牌压缩与高斯基元解码自身计算量微乎其微,系统瓶颈始终在多视角骨干网络。
随着视角数增加至192,使用视角依赖压缩调度时,峰值显存控制在17GB(而YoNoSplat已达24GB上限),生成约102K个高斯基元(9.3MB存储,401 FPS渲染速度),相比固定r=1.0的200万高斯基元(183MB,40 FPS),实现了10倍渲染加速和20倍存储节省。在24个视角时,调度压缩生成36K个高斯基元,占用3.3MB,渲染速度达到685帧/秒,完全满足实时移动端或网页端展示需求。
八、消融实验:每个设计选择都有意义
研究团队通过系统性消融验证了各个设计选择的贡献。在骨干网络完全相同的前提下,ZipSplat的令牌解码器相比像素对齐解码器,在6/12/24视角下稳定提升1.5至2.7 dB,且高斯基元数量减少13至25倍。这一改进在VGGT和DA3两种骨干网络上都成立,说明性能提升确实来自令牌化设计本身,而非骨干网络的差异。
关于每个令牌生成的高斯基元数量G,质量在G=32时已趋于饱和:G=64比G=32仅多0.03 dB,但高斯基元数量翻倍;G=8比G=32少0.19 dB,但高斯基元数量只有四分之一。综合考虑,G=32是最优平衡点。
在初始化和损失函数方面,耦合初始化贡献最大(去除后下降0.25 dB),不透明度偏置和位置偏置各贡献约0.14至0.15 dB,深度损失贡献约0.19 dB。而单向Chamfer几何损失属于训练稳定性的必要条件——去除会导致训练不稳定甚至发散,无法单独量化其贡献。
话说回来,ZipSplat做了一件在三维重建领域颇为罕见的事:它将“用多少个基本单元描述一个场景”这个问题,从一个由相机分辨率决定的固定值,转变为由场景内容驱动的自适应量。这意味着系统终于开始关注“这个场景究竟需要多少表达能力”,而非“相机拍了多少像素”。
对普通用户而言,这项技术的潜在影响相当直接:未来的手机3D扫描应用,能用更少的存储空间和更快的处理速度生成更高质量的场景模型;增强现实应用能在资源受限的设备上运行更复杂的场景;大规模三维地图数据库的存储与传输成本也能大幅下降。研究团队还指出两个值得进一步探索的方向:一是在每个高斯基元上附加语义特征用于场景理解(令牌化后的紧凑表示使特征存储成本大幅降低);二是将令牌聚类机制推广到四维动态场景,跨时间维度合并冗余观测。
归根结底,这项工作提醒我们:在信息处理中,“更多”并不总是“更好”,找到恰当的表达粒度往往比一味堆砌更有价值。有兴趣深入了解技术细节的读者,可在arXiv平台通过论文编号2606.05102查阅完整原文。
Q&A
Q1:ZipSplat与现有三维重建方法相比,速度如何?
A:ZipSplat在24个输入视角下,完整前向推理在0.8秒内完成,生成的场景可达685帧/秒的实时渲染速度,存储仅需3.3MB。相比之下,YoNoSplat在192个视角时会产生9.6M个高斯基元(539MB、8.9 FPS),而ZipSplat采用视角依赖压缩调度仅生成102K个高斯基元,速度快约45倍,存储减少约20倍。
Q2:ZipSplat使用的K-means聚类与随机采样差距有多大?
A:在温和压缩(保留60%以上令牌)时差距极小,不超过0.1 dB,因为后续的交叉注意力能补回丢失的细节。但在激进压缩(仅保留10%令牌)时,K-means比随机采样高出0.79 dB。原因在于K-means可跨多个视角合并冗余令牌,而非随机丢弃整个视角的信息。
Q3:ZipSplat需要相机位姿信息才能工作吗?
A:不需要。ZipSplat可在完全未知相机位置与朝向的情况下运行,该模式下在RealEstate10K上可达26.20 dB,已超越大多数需相机位姿的对比方法。若提供真实相机位姿,性能进一步提升至27.19 dB,但位姿带来的增益相对有限,说明模型自身的场景理解能力已足够强。