小米智驾技术深度解析:大模型成熟之路与未来出行展望
在与小米汽车智能驾驶基座大模型负责人陈龙的深度交流中,他为我们揭示了XLA系统的独特成长逻辑。他将其比作人类的学习过程:先掌握语言与基础认知,再通过触觉与空间感知理解世界,最终将这些综合能力应用于驾驶。XLA大模型正是遵循这一路径,旨在实现从“会开”到“开得好”的质变。
今年三月,伴随新一代SU7的亮相,小米正式将其辅助驾驶系统升级为XLA认知大模型架构。雷军在发布会上特别强调了“X”的涵义——它超越了行业常见的“VLA”(视觉-语言-动作)框架,集成了声音、机器人数据等多模态信息输入,构建了更全面的环境认知能力。
陈龙是驱动XLA认知大模型落地的核心工程师。童年时《霹雳游侠》中那辆具有自我意识的智能跑车KITT,为他播下了梦想的种子。他的职业生涯始终聚焦于如何让机器深度理解驾驶。在加入小米前,他曾在剑桥大学孵化的自动驾驶公司Wayve工作,是将VLA模型应用于辅助驾驶领域的先驱之一,其研究重点在于提升大模型决策的可解释性与透明度。一年前,他加盟小米,负责主导辅助驾驶VLA技术的研发。
彼时,小米的辅助驾驶架构基于“端到端+VLM”模式。这种深度学习范式旨在通过海量场景数据训练,让模型直接输出驾驶行为,跳过了传统架构中独立的感知、规划模块。陈龙将这一阶段的核心总结为“数据驱动”。不可否认,2024年行业向端到端架构的集体转向,显著提升了辅助驾驶系统的整体性能基线。
然而,进入2025年,纯粹依赖数据驱动的局限性日益凸显。模型通过海量数据训练获得了熟练度,但面对现实世界中层出不穷的复杂、长尾场景时,仅靠“记忆”远远不够。系统必须能够理解人类行为逻辑与社会通行规则,具备真正的认知能力,才能像经验丰富的驾驶员一样应对未知挑战,实现安全、拟人化的决策。陈龙将这一进化方向,明确界定为“认知驱动”。

