奔驰自动驾驶安全升级：揭秘AI谨慎决策技术如何提升道路可靠性

2026-05-13阅读 0热度 0

自动驾驶

在梅赛德斯-奔驰斯图加特研究中心，工程师与科学家正致力于攻克自动驾驶感知系统的关键瓶颈：如何让人工智能具备表达“空间不确定性”的能力。这项与斯图加特大学、纽伦堡-埃尔兰根大学合作的研究，为提升自动驾驶在复杂环境下的决策可靠性提供了新的技术范式。

现实驾驶中，驾驶员在浓雾或大雨中会本能地降低车速，因为视觉信息的模糊性带来了风险。然而，当前主流的目标检测AI更像一个过度自信的感知系统：即便输入图像存在模糊或遮挡，它仍会输出一个高置信度的、确定性的边界框。这种缺乏“自知之明”的缺陷，在安全至上的自动驾驶领域构成了潜在隐患。

根本问题在于“空间不确定性”的缺失。现有视觉AI能输出分类置信度，例如“这是一辆车，置信度95%”。但它无法同时量化其定位的模糊性，即“我对这辆车的精确轮廓和位置存在多大程度的不确定”。这如同能判断“远处有行人”，却无法评估其确切姿态与距离范围。缺失这种关键的不确定性度量，系统在需要精细操控的临界场景下极易做出风险决策。

一、探测器的“眼睛”与它的局限

理解这项突破，需从现代目标检测架构（如DETR）的工作原理切入。其流程可类比为一个系统化的视觉解析管道。

典型流程包含三个阶段：首先是特征编码，模型编码器对输入图像进行全局特征提取。其次是目标查询，解码器通过多组可学习的查询向量，在特征图中主动定位潜在目标。最后是预测输出，分类与回归头分别给出物体的类别标签、边界框坐标及置信度分数。

传统DETR架构的核心局限在于其输出是确定性的。它生成的边界框是单一、精确的坐标，缺乏对该坐标可能存在的误差范围的任何量化指示。这种“非黑即白”的输出模式，难以应对现实世界中普遍存在的模糊和歧义。

二、既有方案的效率瓶颈

为AI注入不确定性感知并非全新课题，但现有主流方法均存在显著的效率短板。

第一种路径是蒙特卡洛Dropout。该方法在推理时随机丢弃部分网络连接，进行多次前向传播，将结果分布作为不确定性估计。其代价是推理速度成倍下降，难以满足自动驾驶高实时性的硬性要求。

第二种路径是深度集成。该方法独立训练多个完整模型，通过集成它们的预测结果来评估不确定性。虽然精度通常更高，但训练和部署多个模型带来了巨大的计算与内存开销，在车载嵌入式平台上成本过高。

三、GroupEnsemble：一个高效的“内部议会”

面对效率与性能的权衡，研究团队提出了一个创新思路：在单一模型内部，构建多个具有独立视角的“专家委员会”。

这便是GroupEnsemble方法的核心。它基于Group DETR框架。在训练阶段，Group DETR会初始化多组查询向量，这些查询组会自发地学习关注图像的不同区域和特征，形成多样化的表征偏好。

传统推理仅使用第一组查询。GroupEnsemble的关键改进在于，在推理时同时激活所有训练好的查询组，让它们对同一输入图像进行并行且独立的检测，从而在一次前向传播中生成多组差异化的检测假设。

为确保各组预测的独立性，研究者引入了注意力掩码机制，有效隔离了各组查询在解码器中的交互，防止它们过早达成“共识”。这种方法从根本上避免了重复计算，实现了高效率的不确定性采样。

四、从分歧中量化不确定性

获得多组检测假设后，如何将其转化为可用的不确定性指标？GroupEnsemble通过聚类与聚合两步实现。

第一步是聚类。 系统采用聚类算法，将所有指向同一真实物体的检测框进行分组。判据是边界框的重叠度（IoU）及预测类别的一致性。这相当于将关于“同一目标”的所有观测证据归档。

第二步是聚合。 这是提取不确定性信息的关键。对于语义不确定性（分类可信度），系统统计有多少个查询组检测到了该物体。支持组别越少，该检测为误报的可能性越高，其置信度会被相应调低。

对于空间不确定性（定位精确度），系统则分析同一聚类内所有边界框的位置和尺寸方差。方差越大，表明各“专家”对物体边界的判断分歧越大，空间不确定性就越高。最终输出的是一个加权平均的边界框，并附带一个量化其位置不确定性的方差矩阵。

五、实验验证：全面领先的表现

研究团队在多个权威数据集上验证了方法的有效性，结果展现出显著优势。

在Cityscapes城市场景数据集上，GroupEnsemble本身的不确定性估计质量已与MC-Dropout相当。当两者结合形成MC-GroupEnsemble时，其概率检测质量得分达到21.4，是原确定性基线（9.4）的两倍以上。同时，其平均检测精度从37.8%提升至39.2%，实现了精度与不确定性估计能力的同步提升。

效率优势尤为明显。 深度集成方法需要5个完整模型，参数量增加107%，推理延迟高达53.4毫秒。而GroupEnsemble仅增加0.7%的参数，延迟为18.4毫秒，速度快66%，在精度与效率间取得了卓越平衡。

在模拟雾天的Foggy Cityscapes数据集上，MC-GroupEnsemble展现出强大的鲁棒性，其不确定性估计质量显著优于对比方法。在通用的COCO数据集上，其性能与深度集成持平，但计算成本大幅降低，证明了该方法的广泛适用性。

六、设计背后的考量

为何这些设计有效？消融实验提供了洞见。

查询组的数量存在收益递减点，但增加组数确实能提升不确定性估计质量，因为引入了更丰富的视角多样性。得益于Transformer的并行架构，增加组数对推理延迟的影响远低于串行运行多个模型。

在置信度聚合策略上，简单平均会导致系统过于保守，直接取最大值则会使系统过于激进。最终采用的“加权最大值”策略，根据支持某一检测的组别数量动态调整置信度，在准确性与概率校准性之间找到了最优平衡。

七、为何这项研究值得关注

GroupEnsemble的核心突破在于，它巧妙地利用了DETR架构内生的并行分组特性，将高质量不确定性估计的额外开销降至近乎可忽略的水平。它无需以时间或巨大的内存为代价，实现了单次前向传播即可获得多样化采样。

此外，该方法表现出优异的概率校准特性。这意味着系统输出的置信度与其实际准确率高度匹配，这种“言行一致”是构建可信AI系统的基石。

在扩展性方面，由于Group DETR是一种训练策略，GroupEnsemble可以相对便捷地迁移到其他基于DETR的变体模型上，具备良好的技术适配潜力。

八、从实验室驶向公路

这项研究的工程价值明确。对于自动驾驶，能够量化感知不确定性，意味着系统在恶劣天气或复杂光照条件下，可以依据不确定性水平主动采取更保守的驾驶策略，如降低车速或请求人工干预，而非盲目执行。

其低内存占用和高推理效率的特性，使其非常适合部署在算力受限的车载边缘计算平台。这不仅是学术指标的突破，更是工程落地的重要前提。

当然，其应用场景远超自动驾驶。在医疗影像诊断、精密工业质检、安防监控等任何低容错率的视觉感知任务中，一个能可靠评估自身不确定性的AI系统，都可以作为关键的安全冗余，在置信度不足时触发人工复核，避免灾难性误判。

从更宏观的视角看，这项研究为Transformer时代的高效不确定性估计开辟了一条新路径。它揭示了一个重要方向：提升AI的智能，不仅在于追求更高的准确率，更在于赋予其评估自身认知局限的能力，这是一种关键的系统性安全思维。

Q&A

Q1：GroupEnsemble究竟是什么？

A：这是由梅赛德斯-奔驰联合高校研发的一种面向目标检测AI的不确定性量化技术。其核心是使AI在输出检测结果时，能同步评估并报告其对于目标位置判断的把握程度，从而增强系统在安全关键场景下的决策稳健性。

Q2：GroupEnsemble相比现有方法最大的优点是什么？

A：最大优势在于极高的效率。它无需多次运行模型或维护多个完整模型副本，仅通过单次前向传播即可获得高质量的不确定性估计。相比深度集成，推理速度提升约66%，额外参数增量仅为0.7%，实现了性能与资源消耗的近乎最优解。

Q3：这项技术何时能用在真正的自动驾驶汽车上？

A：该技术已在学术层面完成原理验证，展示了其卓越的效能。从论文研究到集成至量产车载系统，仍需经过严苛的工程化开发、车规级测试与功能安全认证流程。鉴于主导方为梅赛德斯-奔驰，这项技术有望在其未来高阶自动驾驶平台的感知系统中得到应用，逐步提升车辆在边缘场景下的安全冗余与行为可预测性。