理想汽车 2026 GTC 发布 MindVLA-o1 模型,让车真正具备理解 3D 空间的能力

2026-05-05阅读 0热度 0
理想汽车 GTC2026

理想汽车发布MindVLA-o1:重构自动驾驶的3D空间感知与决策体系

在2026年GTC大会上,理想汽车基座模型负责人詹锟正式发布了下一代自动驾驶模型MindVLA-o1。该模型的核心突破在于首次将空间几何理解、多步思考推理与实时驾驶行为决策三类能力整合进统一架构,形成了对三维物理环境的完整、可解释的认知闭环。值得关注的是,同一VLA模型架构可同时部署于车辆与机器人平台,这揭示了自动驾驶技术正演化为通用物理AI的核心驱动力。

理想汽车 2026 GTC 发布 MindVLA-o1 模型,让车真正具备理解 3D 空间的能力

解决传统感知方案的固有缺陷

针对行业长期依赖的BEV方案压缩场景、丢失垂直维度信息的根本问题,以及OCC占用网络仅有几何体素感知、缺乏语义理解的局限性,MindVLA-o1提出了新的架构范式。其基于3D Vision Transformer的视觉模型,能够从多目视频流直接重建包含精确位置、点云、语义标签与原始像素的完整空间表征。在模型训练阶段,通过深度融合视觉语义信息与激光雷达点云的几何先验,并引入前馈式3D高斯泼溅表示技术,实现对静态结构与动态元素的分离建模。借助自监督学习,模型具备了对场景未来状态的预测能力,从而为规控系统输出高保真、时序一致的3D环境表征。

底层算力突破与推理架构升级

为支撑复杂模型的车端部署,理想自研的马赫100芯片在标准大规模矩阵运算任务上实现了较前代3倍的性能跃升,为高精度3D感知与推理模型的车规级量产提供关键算力基础。

在认知层面,新一代多模态思考框架整合了符号化语言推理与几何空间推演,其System-2显式推理机制与隐世界预测模型协同工作,构建了类似“思维链”的决策预演能力。该系统能在隐空间内高效仿真多种未来场景分支,从而完成对复杂交互场景的风险评估与最优策略生成。

构建通用物理智能体的技术路径

更具战略意义的布局在于,理想已建立起面向具身智能的统一AI框架。通过共享的数据引擎、VLA基座模型、高保真仿真系统与强化学习训练设施,实现了同一模型在不同形态智能体间的能力迁移与泛化。这套体系标志着自动驾驶的基础模型,正沿着通用物理世界智能体的技术路径持续进化,其应用边界可能远超当前的交通场景定义。

英伟达 GTC 2026 大会专题

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策