卓驭于贝贝转型物理AI:2024年生存法则与前沿趋势深度解析
卓驭于贝贝:向物理AI转型,是生存法则的必然选择 | 最前线
文|肖漫
编辑|李勤
物理AI正重塑智能汽车行业的竞争格局。如今,这已不仅是技术前沿的探索,更是算法厂商必须面对的生存命题。
北京车展期间,卓驭科技发布了其原生多模态基础模型,旨在为移动物理AI提供核心支撑。卓驭科技副总裁于贝贝指出,这场转型浪潮的本质是行业范式的根本性切换。跟不上这次技术跃迁,意味着可能在未来失去参赛资格。
竞争维度正在拓宽。算法厂商的对手不再局限于传统同行,更包括来自数字AI领域的跨界巨头与新兴的具身智能公司。这场淘汰赛将决定下一阶段的行业格局,而胜出者的商业空间也将被彻底打开。
依托移动基座模型,卓驭正试图突破传统Tier 1依赖硬件销售与一次性开发费的商业模式。其规划的第二增长曲线,旨在将乘用车验证的技术拓展至Robotaxi、RoboVan等L4级领域,探索基于订阅、利润分成乃至“动作令牌”的新型商业形态。
近期,36氪与卓驭科技副总裁于贝贝进行了一场深度对话,探讨物理AI的底层逻辑、商业化路径,以及卓驭如何在变局中构筑护城河。
以下是经过编辑的对话实录:
36氪:能否详细介绍一下原生多模态基础模型?
于贝贝:我们所说的“原生多模态”,其理念在去年启动VLA 1.0项目时便已萌芽。当时的方案本质上是视觉与动作的对齐模型,语言模态是后期附加的。这种架构存在固有局限,例如对语义理解的深度不足和响应延迟。
将所有信息先转换到语言空间进行理解,再试图用语言推理的结果去操控物理世界——这条路径在本质上是低效的。
更合理的架构是什么?视觉、音频、动作指令乃至规则逻辑,都应被视为平等的原生模态。它们需要在预训练阶段就深度融合,让模型在一个共享的嵌入空间里直接理解和推理物理世界。这才是通向通用物理AI的正确路径。
36氪:现在有把语言模态拿掉吗?
于贝贝:目前我们车端部署的模型,确实未开放纯语言模态的输入。这与行业向VLA 2.0范式迁移的趋势一致,核心在于底层骨干网络的变革。
36氪:卓驭也进入了VLA2.0的阶段?
于贝贝:是的。行业正处于范式切换的关键节点。选择很明确:是延续过去专家模型的小模型路径,还是全面转向大模型(基础模型)范式?我们坚定选择后者。
在移动物理AI的语境下,若想实现能力在不同载具间的通用化,就必须拥抱能够规模化的基座模型范式。回顾大语言模型的发展史,早期众多垂直领域的专家模型,最终都被通用基座模型所取代。我们相信物理AI领域将遵循同样的技术演进规律。
36氪:很多厂商都在这么做,但目前似乎还没能真正训练出一个可以让各种不同载体统一接入的模型,本质上大家仍然是在解决车上的问题。
于贝贝:这需要一个渐进的过程。到2025年,行业普遍转向数据驱动范式,模型开箱能力可达70分水平。此后,从70分提升至90分,仍需依赖后训练与特定数据泛化,但提升难度已远低于从零开始。
最终目标是实现零样本泛化,即“开箱即用”。理想状态下,模型开箱能力若能接近95分,后续的适配成本将趋近于零。虽然目前距此尚有距离,但开箱70分已成为现实起点。
36氪:在现阶段,卓驭是否已经把各种场景都统一到同一个模型里实际运行过了,并认为它已经可以在各个领域都量产且实现泛化,还是说处于一个比较早期的阶段?
于贝贝:目前远未达到开箱即用的理想状态。什么是物理AI的终极范式?何种架构最能理解物理世界?这些问题在业界仍无定论,我们都处于探索的早期阶段。
36氪:您怎么看待当前大多数方案厂商都在向物理AI方向转型的现象?这是不是向资本市场讲一个更有想象空间的故事?
于贝贝:这绝非简单的资本叙事。我们认为,这已上升为一条生存法则。不踏上这条技术路线,很可能意味着在未来失去竞争力。
这与大语言模型爆发前夜的情景高度相似。当时许多垂直专家模型看似稳固,但通用基座模型一经成熟,便重塑了整个市场格局。
36氪:在这个范式下做一个通用模型,但在其他场景下的数据,或者其他前期训练所需的条件,是不是还不够充分?
于贝贝:我们训练基础模型的数据构成大致分为三部分:30%来自车辆采集的真实数据,30%源于机器人领域,剩余40%来自互联网公开数据。
与移动能力相关的数据在互联网上并不稀缺。任何第一人称视角的运动视频——无论是车载、机器人录制还是甚至步行拍摄的视频——都是有效的训练素材。这类数据的规模极其庞大。
许多企业都宣布进军移动物理AI。模型能力固然是核心,但另一个关键壁垒是部署与分发。具身智能必须与具体硬件结合,其分发复杂度远高于纯数字AI应用。因此,构建高效的分发平台与生态网络,与提升模型能力同等重要。
36氪:卓驭在分发上是怎么做的?
于贝贝:我们建立了多层次的分发体系。首先,与合作伙伴共同定义硬件标准,通过授权合作进行硬件层面的分发。
软件层面,我们将核心能力封装为移动AI SDK,提供给不具备模型后训练能力的合作伙伴使用。另一种模式是将成熟的模型开源,赋能生态进行二次开发与训练。
此外,我们也在探索“移动智能体”形态。对于扫地机器人、割草机等低安全要求的设备,可将传感器视频流上传至云端,由云端模型处理并下发动作指令,实现按需服务。
36氪:这几种分发的方式,是否对应着卓驭的商业收费模式?
于贝贝:是的,不同分发模式对应不同的商业场景。
第一增长曲线对应传统业务:向乘用车或商用车客户销售硬件、软件许可,并收取开发与非重复性工程费用。
第二增长曲线则聚焦L4级领域,如Robotaxi和RoboVan。我们将乘用车验证过的技术进行拓展。在这类业务中,我们可能不收取前期软件许可费,而是通过持续的技术迭代与运营支持,参与利润分成,形成订阅与分润的可持续收入模式。
36氪:听起来第二增长曲线更挣钱。
于贝贝:相比第一曲线,第二曲线的利润结构确实更具吸引力。
以“移动智能体”模式为例,其商业逻辑类似于分发“动作令牌”。当消费级设备调用云端模型能力执行任务时,可以按使用次数、行驶里程等维度收费。这开辟了全新的按需服务与微交易模式。
36氪:后续运维各方面的东西,都是卓驭来做吗?
于贝贝:L2级系统通常不涉及持续运维。而L4级别则必须包含远程监控与接管系统,这意味着持续的运维服务。
这类似于过去的安吉星服务模式。启用L4功能后,无论是物流车辆还是乘用车,都需要为这项持续的安全监控与保障服务支付费用。未来,当乘用车硬件支持L4时,车主在特定场景下启用该功能,也可能需要为每公里的L4服务额外付费。
36氪:你认为L2和L4会是完全不一样的商业模式?
于贝贝:完全不同。L2本质上是功能售卖,属于一次性或按版本许可的商业模式。L4则是持续的服务订阅,其责任边界与安全要求也截然不同。从工程安全角度看,相同性质的事故发生在高速L4场景下,其风险与后果远高于城区L2场景。
36氪:行业玩家都在往物理AI方向做,这是新一轮淘汰赛的开始吗?
于贝贝:新一轮行业洗牌已经启动。可以预见,所有自动驾驶公司都将转型为移动物理AI公司。
竞争因此变为跨界竞争。对手不仅是现有行业内的玩家,更包括来自数字AI领域、原本并无汽车背景但试图切入具身智能的科技巨头。这是一场更广阔、更激烈的竞赛。
36氪:那卓驭的护城河究竟是什么?
于贝贝:我们的护城河建立在两点之上。第一,是模型本身的迭代能力与最终架构的领先性。目前行业技术范式仍在快速演进,谁能率先找到更优的架构(无论是3D DiT、V-JEPA还是其他),谁就能建立核心优势。
第二,是高效的分发能力与生态构建。将物理AI能力规模化部署到多样化的硬件载体上,并与广泛的合作伙伴构建共赢的生态网络,这本身就是一个极高的壁垒。模型决定上限,而分发决定商业化的广度与深度。
