理想汽车150亿研发 自动驾驶12篇CVPR论文揭新进展
理想汽车在自动驾驶领域投下了一枚重磅炸弹——12篇论文同时被计算机视觉顶级会议CVPR接收。CVPR作为三大顶会之一,其论文录用门槛之高业界公认。一次性入选12篇,折射出的是深厚的技术研发积累与系统化创新能力。
这12篇论文覆盖了哪些核心技术方向?世界模型、端到端规划、多模态感知、强化学习——几乎每个核心方向均有部署。从底层模型构建到上层决策优化,形成了一条完整的技术链条。其中最受关注的是世界模型方向的四项研究,分别从深度估计、三维重建、交通规则认知评估、安全风险预判四个维度切入,构建了从“还原真实世界”到“理解交通规则”,再到“预判危险后果”的完整技术闭环。
具体来说,在几何理解层面,理想汽车提出的InfiniDepth方法将深度表示为连续的神经隐式场,实现了更高分辨率、更细粒度的深度估计。这意味着车辆能够更精准地恢复道路、车辆和障碍物的三维结构,为后续仿真与环境建模提供更可靠的基础。在仿真资产构建方面,Unposed-to-3D技术通过两阶段框架,从真实驾驶图像中学习三维车辆重建,有效解决了以往依赖合成数据导致的域迁移问题。简言之,生成的三维车辆资产更贴近真实驾驶场景,仿真效果自然更可信。
当然,自动驾驶迈向真正实用的核心在于对交通规则的理解与安全风险的预判。DriveCombo评测框架在这方面做得非常细致——它构建了一个文本与视觉相结合的组合式交通规则推理基准,提出五级认知阶梯,用于系统评估主流多模态大模型在复杂交通规则理解上的实际能力。另一边,AD-R1聚焦安全预判,通过反事实合成生成风险场景,让模型学会真实地预判危险后果,并将其作为闭环强化学习中的内部评论器,为候选动作提供安全反馈。这几项研究共同指向一个目标:提升自动驾驶系统在长尾风险场景下的可靠性。
推理侧同样有多项重要进展。CogDriver引入了一种名为“认知惯性”的机制,解决了视觉语言模型在时序理解上的短板。这样一来,系统能够结合历史状态和持续意图,做出更稳定的决策。LinkVLA则打通了语言理解与动作生成之间的通道,通过共享离散码本和动作理解辅助任务,实现了语言到动作的高效转换,同时节省了86%的推理时间。这些突破推动自动驾驶系统从“看见和判断”进一步迈向“理解、推理和行动”。
多模态感知与强化学习方向的研究,则专注于环境预判和规划优化能力的提升。SparseWorld-TC采用稀疏占据表示,直接从原始图像特征出发,预测未来多帧三维场景的占据情况,为规划提供更可靠的环境预判。PlannerRFT则通过样本高效的强化微调框架,让规划器在反馈中学会生成更合理、更适应场景的驾驶轨迹。这些研究共同增强了自动驾驶系统在复杂道路环境中的适应能力。
整体来看,理想汽车的技术布局并非停留在单点能力的突破上,而是围绕智能驾驶构建了一套完整的能力链条。从世界模型的还原与推演,到认知对齐与语言视觉智能的提升,再到端到端规划的成型以及多模态感知与强化学习的优化——这些研究最终都指向一个共同目标:让车辆不仅能够看见世界,更能理解世界、推演未来,并在复杂场景中做出更可靠的行动选择。这才是关键所在,也为理想汽车在自动驾驶领域持续领先奠定了坚实的技术基础。

