理想汽车未来十年战略测评

2026-06-23阅读 0热度 0
新能源车

2024年L9发布会上,理想汽车董事长兼CEO李想站上舞台,把车载冰箱、全景大屏、零重力沙发一一摆上台面,“冰箱彩电大沙发”由此成了理想的代名词。彼时,舆论一半在赞叹它精准切中了家庭出行的痛点,另一半则在嘲讽理想只会堆砌家电,缺乏硬核的底层技术。

四年转瞬而过。如今,几乎所有新能源车企都配齐了冰箱、后排屏和舒适座椅。曾经独一份的差异化卖点,已经沦为了家庭SUV的行业标配。同质化愈演愈烈,价格战又在持续挤压利润空间,所有人都在追问同一个问题:当别人把座舱配置都抄走之后,理想下一个十年,凭什么继续守住优势,又凭什么拉开一道别人无法复刻的护城河?

答案,藏在2026年6月15日理想汽车在北京研发总部举办的Livis Day里。

Livis Day是理想汽车今年以来第一次线下发布会,也是公司历史上首次针对软件与具身智能举行的专属发布会。这场发布会不推新车,也不堆配置,复盘整场活动来看,核心只讲了一件事:理想打算用具身智能,重启智能汽车的下一个十年。

从车载操作系统立项,到马赫芯片、马赫VLA基座模型依次启动,再到今年Livis具身智能体系全面量产落地,外界才终于意识到:理想“成为全球领先的具身智能企业”这个宏大战略,绝不只是说说而已。

“过去十年,我们创造了一个移动的家。第二个十年,我们会给车和家,赋予生命。”李想在会上如此定义。

一、重新定义真正的具身智能汽车

“今天的智能手机和智能汽车,都不智能。”李想在发布会上直言不讳。

他指出,过去十几年,行业公认的“智能汽车”普遍遵循三要素:软件定义硬件、联网且实时在线、系统可以持续升级。智能汽车是这样,智能手机也是这样。

但这三要素如今已经不够用了。李想的判断是,今天的智能手机和智能汽车虽然挂着“智能”的标签,本质上依然是功能驱动,算不上有生命力的智能体。

判断一辆车是否真正智能,李想给出了三个维度:安全、能力、效率。

首先是安全。传统汽车奉行“免责优先”,具身智能汽车则必须“以保护人类安全为核心,比人类更安全”。其次是能力。传统汽车局限于“特定功能、特定场景”,具身智能要全面学习人类技能,并能独立完成任务。最后是效率。传统汽车是“人机共驾”的格局,具身智能必须比人类效率更高。

基于这些维度,理想汽车将具身智能汽车定义为“四位一体”:

首先,它得是一辆电动车。具身智能汽车要服务真实世界,就需要有身体,能移动,能抵达目的地。

其次,它得是一位职业司机。能理解道路、识别风险、遵守交通规则,能够完全可靠地完成出行以及生活中的各项任务。

同时,它还是一台AI计算机。相比旗舰智能手机和电脑,它拥有更强的AI算力、更大的内存,并且内存和显存一体化,专为大模型设计。

最后,它必须是一个生活助手。用户不需要研究怎么操作各种软件,只需把任务告诉它,剩下的事由它来完成。

李想特别强调:“这不是四个产品,这应该是一个产品。”过去新势力车企做的事,大多是分头做好:智驾团队做智驾、座舱团队做座舱、底盘团队做底盘、车机系统做应用。而理想这次要做的,是让这些能力同时生长在一个底层架构上。

“在iPhone出现以前,没人知道自己需要触摸屏。在特斯拉Model S出现之前,没人相信电动车能这么让人心动。所有没有被展示出来的可能性,往往会被误认为是不存在的需求。”李想在发布会上补充道。

把这套定义落地到工程层面,意味着理想汽车至少需要重做三件底层的事:一颗自研芯片、一套自研操作系统、一组自研模型。

二、三大具身模型:马赫Mind-Pro、马赫Mind-Edge、马赫VLA

具身智能的大脑,被理想汽车拆成了两支:语言智能负责“听得懂任务”,机器智能负责“开得到目的地”——前者由两个自研大模型马赫Mind-Pro和马赫Mind-Edge承担,后者由自研马赫VLA承担。两支共享同一套底层认知,共同构成一个完整的大脑。

先看语言智能。这一次,理想正式推出两个全新模型——马赫Mind-Pro与马赫Mind-Edge。

据理想汽车基座模型负责人詹锟介绍,马赫Mind-Pro走云端,定位是Agent智能体模型;马赫Mind-Edge走端侧,主打端侧原生具身智能体。

詹锟在发布会上透露,目前马赫Mind-Pro依托Livis Agent全场景体系,通过Token压缩技术,在任务完成率零衰减的前提下,Token平均消耗降低了38%,工具调用冗余轮次减少了47%。TPS峰值达到208 Token/s,推理效率是主流Agent模型的2倍以上。

马赫Mind-Edge则采用多模态流式时序建模,能够连续理解动态的物理世界,具备因果推理和自主决策能力。再加上大量车载专属的行为特化训练,模型摆脱了传统AI“只回答不行动”的模式,可以直接输出动作,实时调用车辆硬件。“这不是云端模型的阉割版本,而是从底层就为车载场景原生打造的模型。”詹锟强调。

云端马赫Mind-Pro负责复杂Agent任务调度,端侧马赫Mind-Edge负责实时人车交互。两个模型共同构成了具身智能的语言智能层。

语言智能之外,理想在机器智能上也有自己的模型——马赫VLA,这也是原来MindVLA的升级版本。

以效率为例,普通人从发现危险到踩下刹车的反应时间是0.45秒,而全新马赫VLA系统的反应耗时只有0.28秒。

那么,马赫VLA这一代的能力究竟从哪里来?詹锟将其归纳为三个变量的同时跃升:“这背后是数据、算力、模型规模同时暴增下,Scaling Law带来的能力涌现。”

数据规模方面,模仿学习数据量增加了50%,强化学习数据量增加了15倍,训练算力增加了5倍。模型规模方面,行泊一体模型彻底统一,参数量提升了10倍,每秒Token计算量提升了15倍。

但比涌现更关键的,是架构层的重构。理想直接把感知、预测、规划三个模块统一成了“原生多模态MoE大模型”。“过去模块化的模型结构有一个致命缺陷——感知、预测、规划三个模块各玩各的。就像一家公司,市场部说这事能干,研发说我压根没收到消息,财务说我还不知道有这个项目。功能都没错,但整体意图完全不一致。”

围绕这个统一的大模型,理想还做了两件配套的事:一件是马赫World Model,一个能模拟真实物理世界的世界模型,为马赫VLA提供训练所需的虚拟环境;另一件是RL Infra,强化学习的训练基础设施,让VLA能在世界模型里持续试错、迭代。

如此一来,马赫VLA、马赫World Model、RL Infra三位一体,构成了一套完整的具身智能模型训练体系。“看见、理解、思考、行动,从一开始就在同一个框架里彻底对齐。我们从第一天起就是为具身智能而生。”詹锟说。

三、3D ViT:用纯视觉达到激光雷达级别的空间理解

新架构只是基础,具身智能要真正“看懂”世界,还需要选择相匹配的视觉方案。这就涉及路线选择的问题——业界有的在卷激光雷达,有的在卷视觉方案。

“行业都在疯狂卷激光雷达的线数,128线、256线、512线,越卷越离谱。但激光雷达的线数再高,也不能知道红绿灯现在是什么颜色,读不懂路牌,更看不懂保安手势。激光雷达只能理解世界的骨架,根本不能真正理解这个世界。”詹锟在发布会上直言。

对此,理想提出了3D ViT视觉感知模型,即通过一个单目摄像头还原出3D空间数据,而不仅仅是2D平面数据,以增强模型对于物理世界位置、深度的准确理解。

3D结构对人来说很直观,但对模型来说并不直观。模型要理解3D结构,才能做出好的动作决策。那么,3D ViT如何做到这一点?

詹锟在群访中做了解释。他表示,人眼有两个非常重要的特性:第一是实时双目,天然就自带3D结构;第二是前额叶很强,能抽取非常高维的表征信息。对于机器来说,做深度学习本质上是在做表征学习,即把信息映射到高维空间,即使它无法直观描述该特征,也需要把下游包含的所有信息都呈现出来。

“人的双眼持续观察3D物理空间后,大脑中整个物理空间会有很强烈的3D感。但摄像头,尤其是单目摄像头,天然没有3D感。人眼如果遮住一只,当你习惯了双眼训练以后,单目也能看到3D结构,因为前额叶已经把这种能力固化下来了。”

同理,机器训练也是这个思路:用很高维的3D空间数据去训练它。这样一来,即便摄像头在移动中,也能构建出三维空间。通过这种方式,3D ViT就可以深刻理解3D环境。

之所以要在前融合里加入更多的视觉数据,是因为帧率。模型帧率的提升对系统体验有明显的改善。

但激光雷达的帧率受机械结构限制,只能达到10-15赫兹。“如果要做更高的输入频率,只能靠视觉。更高的输入频率对细节反应有很大的提升,我们必须拉高上限,基于纯视觉把输入上限拉高。”詹锟补充道。

“3D ViT在我们看来是真正能把物理空间理解清楚的模型,不管是对自动驾驶还是具身智能,都有重要的突破意义。因为它能让车、机器人在不依赖激光雷达的情况下,看得更清、更远。”一位理想汽车的研发人员表示。

但这并不意味着理想就会在车上彻底去掉激光雷达。“LiDAR有一个很大的优势,即能对L3和L4场景下的安全兜底。毕竟纯视觉输入信息有限,而LiDAR在极端情况下可以帮你解决很多问题。”詹锟补充道。

基于这样的判断,詹锟明确今年下半年最重要的两件事是:第一,用纯视觉提高帧率,把芯片性能发挥到更大,反应速度大幅提升。第二,LiDAR会承担很重要的数据采集环节,它对L3、L4各种极端场景很有帮助,我们会持续提升安全,安全不能妥协。

四、自研芯片:跳过路径依赖,才能获得更大创新

所有的车端模型要高效运行,都离不开一颗算力强大的芯片。

2024年,理想开始自研车端AI芯片,今年在L9 Livis上首发搭载。马赫M100芯片采用5nm工艺,单颗算力达到1280 TOPS,是全球首个动态数据流架构的车规级芯片。

全球没有第二家车企和理想采用同样的动态数据流架构。

传统芯片是指令驱动,采用的是冯诺依曼架构,把计算抽象成顺序的指令,一步步做推理。就像机器拿着清单,从第一项做起,做完一项再做下一项,顺序严格不能乱。但这种方式的问题是,清单本身要写、要管、要排序,芯片很大一部分晶体管不是在做计算,而是在管理这张清单。当面对AI模型这种海量并行的任务时,管理成本越来越高,效率上不去。

而数据流则是大规模的并发——多条数据流同时进行,不仅在时间上往前推,在空间上也需要布局,即需要对时间和空间进行编译。

谢炎指出,AI计算其实根本不需要这张清单。“AI计算天然是并行的,数据是确定的、关系是清晰的、流动路径是固定的。”也就是说,AI模型在做什么、下一步要处理什么数据、这些数据要流向哪个计算单元,在模型设计的时候就已经写好了。既然路径是固定的,就不需要一个中央调度员去现场指挥。


于是理想汽车做了一件碘伏传统的事:把那张待办清单以及清单管理员全部砍掉,让数据自己驱动计算的发生。数据流到哪里,计算就在哪里发生。“当需要发生更大创新的时候,得先打破原来的边界,而不是follow既定的路线。”谢炎在群访中强调。

“马赫M100的能力远不止于智能驾驶,它今天已经跑通了车上所有的智能化场景。它能运行语言大模型,它能支撑Agent,它将驱动具身智能,它还会支持更多我们今天还没有想到的AI场景。”谢炎说。

这套架构也拿到了学术层面的背书。谢炎在台上宣布,今年马赫M100架构的论文被ISCA 2026工业分区收录。同期入选的还有谷歌、美光、Meta、安培、MangoBoost。“理想汽车是汽车行业中第一家,历史上第一家在ISCA工业分区获得论文录取的企业。”

谢炎特意申明:“我们入选ISCA从来不是因为造了一颗芯片,而是因为提出并实践了一种创新的架构思路。”马赫M100架构团队将于6月30日在ISCA 2026会议现场进行主题分享。

外界频繁质疑自研芯片投入巨大、回本周期漫长,谢炎算了一笔独特的成本账:车规芯片不能只看出货颗数,还要看晶圆总面积。一台理想Livis车型搭载两颗马赫M100,芯片总面积等同于8颗高端手机SOC;依托近些年全系年销几十万台的整车规模,晶圆采购成本可以充分摊薄,长期来看相比外购方案具备显著成本优势,同时还能彻底摆脱供应链交付约束,掌握自主权。

更关键的是芯片与模型的深度耦合。市面上绝大多数车企,芯片与模型分属两套体系,模型只能适配通用算力,性能释放往往不足五成;而马赫M100配套自研的时空双维度数据流编译器,专为马赫VLA大模型优化,能充分释放芯片全部算力,这是任何外购芯片方案都无法实现的协同优势。下半年理想还会持续迭代编译器,持续挖掘芯片潜在性能,逐步缩小与特斯拉FSD的体验差距。

结语

当前新能源行业已经告别增量蓝海,进入存量淘汰赛。单纯比拼硬件配置或单点智驾功能,都无法支撑长期的品牌优势。行业终局的竞争逻辑已经彻底改写:过去比的是座椅、屏幕、冰箱,未来比的则是完整的具身智能体系——芯片算力底座、多模态大模型、全域数据闭环、整车软硬协同等综合能力。

“冰箱彩电大沙发”帮助理想拿下了第一个十年,完成了家庭用户的心智占领与销量底盘积累;而五年长线布局的马赫芯片、VLA基座模型、Livis具身智能体系,才是支撑理想第二个十年增长的核心引擎。座舱舒适体验不会被抛弃,它会成为具身智能体系之上的用户加分项——车辆不仅拥有舒适的移动空间,更拥有能自主思考、自主处理复杂出行任务的AI大脑。

李想在发布会结尾给出了自己的判断:过去智能车只是功能载体,真正的具身智能汽车会拥有“生命感”——主动保护车主安全、独立完成复杂任务、出行效率超越人类驾驶员。当竞品还在迭代屏幕尺寸、冰箱功率时,理想已经将战场拉升到算力架构、多模态AI、整车全域协同的更高维度。

五年隐忍投入,四年芯片攻坚,三年大模型打磨。如今Livis体系量产落地,理想终于跳出了配置竞争的红海。上半场靠极致的产品打动千万家庭,下半场则靠全栈自研的具身智能,筑牢一道无人能够复制的产品技术护城河。

冰箱彩电大沙发是起点,不是终点。属于理想的下一个十年,胜负其实早已写在了五年前那场漫长的底层技术押注里。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策