ScoreLiDAR测评：激光雷达场景补全提速5倍的自动驾驶技术解析

2026-05-12阅读 0热度 0

Core

自动驾驶系统的安全基石，在于对环境三维结构的精准、实时感知。激光雷达（LiDAR）作为核心传感器，其原始点云数据往往存在稀疏性问题，如同视野中存在大量盲区。场景补全技术旨在智能地推断并填充这些缺失信息，构建出完整、可靠的环境模型。

近期，由浙江大学计算机科学与技术学院主导，联合北京大学等机构的研究团队，在ICLR 2025上提出了一项突破性方法——ScoreLiDAR。该方法在生成质量上超越了当前基于扩散模型的标杆技术，更关键的是，将场景补全的处理速度提升了5倍以上，为自动驾驶的实时感知提供了新的解决方案。

一、当扩散模型遇上效率瓶颈

以LiDiff为代表的扩散模型，在激光雷达场景补全质量上设定了高标准。其原理类似于一个精细的迭代去噪过程，需要数百步计算才能从随机噪声生成密集点云。这种高精度是以牺牲速度为代价的，单帧处理耗时常超过30秒，难以满足自动驾驶毫秒级决策的实时性要求。

ScoreLiDAR的核心思路是知识蒸馏：将一个庞大而缓慢的扩散模型（教师模型）所掌握的高质量生成“知识”，高效地迁移到一个轻量级的学生网络中，从而在保证精度的前提下实现数量级的加速。

ScoreLiDAR的首要创新在于“双向梯度指导机制”。学生模型的训练并非依赖单一信号，而是整合了两位“教师”的协同反馈。

第一位是预训练好的扩散模型（正向教师），它基于海量真实数据训练而成，能够指导学生模型的输出如何逼近真实世界的三维数据分布。

第二位是一个专门训练的辅助扩散模型（反向教师），它专注于学习学生模型输出数据的特征与分布。其作用是识别学生生成结果中可能存在的瑕疵或不合理之处。

通过综合这两位教师从不同角度提供的梯度信号，学生模型获得了更稳定、更精准的优化方向。这种机制使学生网络能够绕过扩散模型耗时的多步采样过程，实现单步或极少步数的高质量生成。

直接将图像领域的蒸馏方法应用于三维点云，效果往往不佳，生成的点云容易结构松散、细节丢失。其根本原因在于，标准损失函数难以有效刻画点云中复杂的几何关系与空间结构。

为此，研究团队设计了专门的“结构化损失函数”。该函数从两个层面进行约束，确保几何保真度：

场景级损失：关注整体结构的准确性。它通过计算生成场景与真实场景点集之间的倒角距离（Chamfer Distance）等指标，确保补全后的大体轮廓和物体布局正确无误。

点级损失：聚焦关键局部特征的保真度。团队采用基于曲率的算法筛选关键点（通常位于边缘、角落等几何特征显著区域），并重点约束这些关键点在生成结果与真实数据中的相对关系。这保证了车辆棱角、建筑轮廓等细节特征得以准确重建。

这种双重约束机制，使学生模型在追求推理效率的同时，牢牢守护了三维场景的几何完整性。

ScoreLiDAR采用交替优化策略进行训练：辅助模型学习评估学生输出；学生模型则依据双向梯度与结构化损失进行更新。两者相互促进，整个训练过程高效收敛，在单张A40 GPU上仅需约10分钟。

在SemanticKITTI和KITTI-360等自动驾驶标准数据集上的评测数据，证实了其卓越性能：

典型案例如，在部分遮挡场景下，ScoreLiDAR能够依据稀疏点云，准确推断并补全出被前车遮挡的第二辆车的完整形态，与真实标注高度吻合。这种能力对提升自动驾驶系统在复杂城市场景下的障碍物识别率至关重要。

ScoreLiDAR的核心优势在于其针对性设计。相较于通用蒸馏方法，其结构化损失函数专门为三维点云的几何特性优化；相较于传统非扩散模型方法，它在生成质量上又具备显著优势。

当然，该方法也存在依赖教师模型质量的局限性。在点云极度稀疏或场景极度复杂的边缘情况下，可能出现轻微的过度补全现象。当前工作主要集中于几何结构的恢复，未来可进一步探索与语义信息的联合补全。

这项研究将激光雷达场景补全的处理时间从“离线”级别推进到“近实时”范畴，使其与自动驾驶的规划控制模块能够更高效地协同。研究团队已公开代码，预计将加速该技术在学术与工业界的应用与迭代。

当自动驾驶的“激光雷达之眼”能在数秒内重建出完整、精确的三维环境时，车辆应对遮挡、盲区等长尾场景的感知鲁棒性与安全性，将获得实质性提升。

Q1：ScoreLiDAR比现有技术快多少？
A：实现了超过5倍的加速。例如在SemanticKITTI数据集上，将单帧处理时间从30.55秒降至5.37秒。

Q2：ScoreLiDAR的核心技术原理是什么？
A：核心是“双向梯度指导机制”和“结构化损失函数”。前者利用教师模型和辅助模型共同指导学生模型；后者通过场景级和点级双重约束，确保补全场景的几何真实性。

Q3：ScoreLiDAR在自动驾驶中有什么实际应用价值？
A：它能极大提升自动驾驶系统对稀疏激光雷达数据的理解速度和精度。更快的补全速度利于实时决策，更准的补全结果则能帮助系统更好地识别被遮挡的障碍物，从而提升行车安全。