理想汽车 2026 GTC 发布 MindVLA-o1 模型，让车真正具备理解 3D 空间的能力

2026-05-05阅读 0热度 0

理想汽车 GTC2026

理想汽车发布MindVLA-o1：重构自动驾驶的3D空间感知与决策体系

在2026年GTC大会上，理想汽车基座模型负责人詹锟正式发布了下一代自动驾驶模型MindVLA-o1。该模型的核心突破在于首次将空间几何理解、多步思考推理与实时驾驶行为决策三类能力整合进统一架构，形成了对三维物理环境的完整、可解释的认知闭环。值得关注的是，同一VLA模型架构可同时部署于车辆与机器人平台，这揭示了自动驾驶技术正演化为通用物理AI的核心驱动力。

解决传统感知方案的固有缺陷

针对行业长期依赖的BEV方案压缩场景、丢失垂直维度信息的根本问题，以及OCC占用网络仅有几何体素感知、缺乏语义理解的局限性，MindVLA-o1提出了新的架构范式。其基于3D Vision Transformer的视觉模型，能够从多目视频流直接重建包含精确位置、点云、语义标签与原始像素的完整空间表征。在模型训练阶段，通过深度融合视觉语义信息与激光雷达点云的几何先验，并引入前馈式3D高斯泼溅表示技术，实现对静态结构与动态元素的分离建模。借助自监督学习，模型具备了对场景未来状态的预测能力，从而为规控系统输出高保真、时序一致的3D环境表征。

底层算力突破与推理架构升级

为支撑复杂模型的车端部署，理想自研的马赫100芯片在标准大规模矩阵运算任务上实现了较前代3倍的性能跃升，为高精度3D感知与推理模型的车规级量产提供关键算力基础。

在认知层面，新一代多模态思考框架整合了符号化语言推理与几何空间推演，其System-2显式推理机制与隐世界预测模型协同工作，构建了类似“思维链”的决策预演能力。该系统能在隐空间内高效仿真多种未来场景分支，从而完成对复杂交互场景的风险评估与最优策略生成。

构建通用物理智能体的技术路径

更具战略意义的布局在于，理想已建立起面向具身智能的统一AI框架。通过共享的数据引擎、VLA基座模型、高保真仿真系统与强化学习训练设施，实现了同一模型在不同形态智能体间的能力迁移与泛化。这套体系标志着自动驾驶的基础模型，正沿着通用物理世界智能体的技术路径持续进化，其应用边界可能远超当前的交通场景定义。

英伟达 GTC 2026 大会专题

理想汽车 2026 GTC 发布 MindVLA-o1 模型，让车真正具备理解 3D 空间的能力

理想汽车发布MindVLA-o1：重构自动驾驶的3D空间感知与决策体系

解决传统感知方案的固有缺陷

底层算力突破与推理架构升级

构建通用物理智能体的技术路径

相关阅读

最新教程

最新资讯