AI出行数据平台测评:谁在场景竞争中领跑?

2026-05-21阅读 0热度 0
如祺出行

AI领域最稀缺的战略资源,定义已经改变。

李飞飞关于“空间智能”的论述,揭示了一个明确的产业转向:继大语言模型之后,世界模型具身智能,正成为技术突破与资本布局的核心战场。

然而,当人工智能试图从文本理解迈向对物理世界的理解与交互时,一个根本性挑战随之凸显:训练这类新型模型所依赖的真实物理世界交互数据,存在巨大缺口。行业分析指出,当前高质量数据的供需差距,可能达到数个数量级

根源在于数据形态的差异。传统大模型依赖海量文本与图像进行训练,而具身智能需要的是“感知-决策-行动-环境反馈”的完整序列。静态的、缺乏因果关联的互联网数据,已无法满足下一代AI的训练需求。

整个行业都在寻找一种新型“燃料”:必须源自真实物理世界、蕴含因果逻辑、且能规模化持续供给的交互数据流。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

因此,高保真的物理世界交互数据,已成为决定AI进化速度的战略性资产。谁能够以可持续、低成本、大规模的方式生产这类数据,谁就掌握了下一代AI发展的关键命脉。

值得注意的是,一个看似传统的行业,正凭借其独特的场景优势,悄然转型为AI时代不可或缺的物理数据入口——出行服务平台

这些平台的核心业务之外,一项基于数据资产化的新增长引擎正在高速运转:向AI产业供给经过深度加工的标准化数据集。

出行平台,流行起用数据“赚外快”?

出行服务行业正在经历一场价值重构。那些掌握海量实时道路数据的平台,正将数据资产进行产品化与服务化,开辟出强劲的第二增长曲线。

更重要的是,这条路径的商业可行性已被验证,并有头部玩家公布了具体的财务表现。

率先披露详细业务数据的,是广汽集团旗下的出行平台——如祺出行

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

其2025年财报显示,以AI数据服务为核心的技术服务板块,已成为公司增速最快的业务单元

这项AI数据业务,源于其内部孵化的数据业务板块(下称“如祺数据”),最早于2023年启动布局。当时,如祺出行获得了乙级测绘资质,开始将搭载激光雷达、高精度惯导及多视角摄像头的智能数据采集车辆,投入日常运营网络。

这些车辆在执行常规出行订单的同时,也在合规采集真实的驾驶行为与道路环境数据。如祺数据的能力边界,随着数据采集的广度和深度不断拓展。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

近期,如祺数据首次系统性地对外公布了其AI数据资产与服务体系

其数据资产已形成标注数据、行为数据、合成数据及多模态训练数据集四大产品矩阵,覆盖从原始数据采集到加工交付的全链路。其中,标注数据是基础;行为数据完整记录了驾驶员在实际复杂交通流中的决策序列;合成数据用于高效生成雨、雾、雪、夜等低概率长尾场景;多模态数据集则对齐了图像、文本、音频与视频信息,可直接用于垂直领域大模型的微调训练。

在规模上,如祺数据已构建起一张可观的数据采集网络。截至2026年5月,公司在广州、上海、重庆、沈阳等多个核心城市部署了超过300台智能驾驶数据采集车。经过近三年的常态化运营,这些车辆日均产出数据达1600小时、130TB;平台累计沉淀了千万量级的高价值驾驶场景片段。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

每一个场景片段,都是一个完整的“智能体-环境”交互实例。从这个维度看,平台持续产出的,是物理世界的动态“时空切片”。

当然,规模仅是基础,商业化落地才是检验模式价值的核心指标。

财报数据显示,2025年,以AI数据服务为主的技术服务板块,实现营收1.6亿元,同比增长487.4%。这一爆发式增长,清晰印证了市场对高质量物理世界数据的迫切需求。

客户结构进一步佐证了其服务的通用性。其客户已覆盖智能驾驶、具身智能、大模型、消费电子、医疗等多个前沿领域;腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部科技及车企均在其客户名单中。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

这表明,从出行服务中衍生出的数据业务,已具备跨行业解决实际AI数据需求的能力,并成功跑通了从数据采集、加工处理到商业化交付的完整闭环。

这也在重塑外界对出行平台的认知。具备全链条数据服务能力的如祺,其身份已超越传统的出行服务商或数据标注公司,正在向提供“标准化数据集+全栈工程能力”的综合服务商演进。这种闭环能力,有望成为下一代AI不可或缺的底层数据基础设施。

出行平台,为什么突然造就了AI基础设施?

理解出行平台的这一角色转变,需要回答两个关键问题:为何AI产业对物理世界数据如此渴求?以及,为何出行平台能精准填补这一缺口?

这需要回到李飞飞对世界模型核心能力的界定。她指出,当前主流大语言模型存在一个关键短板:缺乏“空间智能”——即对三维物理世界进行感知、推理并采取行动的能力。因此,构建能够像人类一样理解并与物理世界互动的新AI系统,即“世界模型”,成为必然方向。

一个合格的世界模型,其训练数据必须满足三个核心标准:生成性、多模态性、交互性

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

这意味着,训练下一代AI所需的数据,必须同时具备这些特征,尤其是“交互性”——数据不能仅是环境的被动记录,必须包含“智能体动作-环境状态变化”的完整因果链条。

然而现状是,行业能稳定获取的物理世界交互数据,远未达到训练需求。传统的数据供给主要有三种路径,且均存在明显局限:

  • 其一,从互联网爬取公开图片与视频,这类数据多为静态快照,缺乏交互与因果信息;
  • 其二,在实验室或仿真环境中人工搭建场景,成本高昂且与真实世界存在“仿真鸿沟”;
  • 其三,采用众包模式采集,数据的质量、一致性与合规性难以保障。

短期内,这三种方式都难以持续、大规模地产出带因果标签的交互数据。这正是行业面临的核心瓶颈:高质量、高保真、带交互标签的物理世界数据极度匮乏,供需之间存在巨大鸿沟。

恰恰在此背景下,出行赛道展现出了生产这类高价值数据的天然场景优势。

与传统采集方式不同,出行平台的数据生产逻辑是“业务即采集”。每一辆数据采集车,本质上都是一个移动的、高精度感知终端,在完成日常出行服务的同时,同步记录下“驾驶员决策—车辆控制响应—环境实时反馈”的完整交互序列。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

这种闭环数据天然具备多模态时空对齐、时序连续和因果逻辑的特征。以如祺展示的泊车场景数据集为例:其数据不仅包含3D障碍物位置信息,还同步采集了车辆底盘CAN信号(反映方向盘转角、油门刹车等控制状态)、毫米波雷达点迹、激光点云与多路摄像头视频流。这些多模态数据围绕同一泊车事件,形成了“行为(操作)-状态(响应)-环境(反馈)”的联合标注数据集。

在训练AI模型时,这类数据不仅能提供“是什么”的样本,更能帮助模型学习“为什么”的因果推理,例如为何选择特定避让策略、如何依据环境动态判断车位可用性等需要物理常识的任务。行业分析认为,这类蕴含完整决策与反馈链条的数据,是训练空间智能模型的“黄金数据矿”。

基于这一独特的数据源,如祺数据系统性地构建了其全链条服务能力。在技术层面,其自研的OCC自动化标注算法,采用同源底图与自动化流程,可减少90%的人工标注耗时,交付准确率超过98%。合成数据引擎能够一键生成雨、雾、雪、夜等极端及长尾场景,有效弥补真实采集的盲区;多模态数据集则覆盖图像、文本、音频与视频,可直接支持大模型的垂直领域微调。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

这套能力的本质,是将其在自动驾驶领域已验证的数据工程化经验——涵盖合规采集、规模化清洗、精准标注到合成增强——产品化为标准化解决方案。客户得以实现“开箱即用”,无需从零搭建底层数据管道,即可直接获取深度加工的标准化数据集与配套工具链。

在这一层面,如祺数据与Scale AI的思路有相通之处:不仅提供数据本身,更提供让客户“更高效理解与使用数据”的工具与方法论,从而降低高质量物理数据的使用门槛,加速客户的模型迭代周期。这也使其数据能力的应用范围,得以从自动驾驶扩展至具身智能、大模型、消费电子、医疗等多个前沿领域。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

可以说,规模与能力是基石,而出行平台更大的想象空间,在于其以特定场景为原点,向更广阔物理世界泛化的潜力。这再次印证了AI产业演进的一条核心规律:得“场景”者,得天下

得“场景”者,得天下

当AI迈向物理世界,行业的竞争范式正在发生根本性转移——从纯粹算法的竞争,转向对核心场景的争夺。

正如移动互联网时代,基于位置服务(LBS)的场景催生了新的数据金矿;云计算成为了数字经济的通用底座。在AI迈向“空间智能”的当下,那些能够持续、低成本产出真实物理世界交互数据的「场景」,正成为新时代最核心的基础设施。

一个行业共识正在形成:场景可能比算法更为稀缺。算法可以被开源或复现,但一个真实、高频、且能产生闭环交互数据的物理场景,却极难被复制。数据本质上是场景运营的“副产品”,拥有场景,就拥有了持续产生数据飞轮效应的可能性。

出行平台,恰恰是这样一个近乎理想的“元场景”:它覆盖海量公共道路空间,涉及持续的人机协同决策,每天发生数以亿计的车辆与环境交互事件。这些要素叠加,构成了一个天然、高并发的数据生产系统。

得场景者得AI天下,出行赛道跑出了一家值得关注的数据玩家

更为关键的是,出行平台采用的“业务即采集”模式,在成本结构上具备天然优势。传统的专业数据采集,需要投入专用车辆、驾驶员和封闭场地,成本高昂且难以规模化。而如祺出行的采集车,本身也是网约车,在创造运营收入的同时完成数据采集,边际成本被大幅摊薄

这种数据能力的潜力,并不局限于驾驶场景本身。据了解,如祺正尝试将其“人-车-环境”的交互数据能力,泛化至更多应用领域,例如探索具身智能在车后服务场景的落地,包括自动洗车、换电、车辆维保、内部清洁等。车后服务是出行场景的自然延伸,也是其数据积累最深厚的领域,能够自然地形成真实的服务闭环。而这些场景中机器人所需的避障、路径规划、精细操作等底层能力,与自动驾驶在数据模态和逻辑上具有高度的同构性。

这种“低成本、高交互”的数据生产模式,一旦在某个垂直场景被验证跑通,便具备了成为行业通用基础设施的潜力。

一个更长期的趋势正在显现:未来,那些拥有深厚物理场景运营经验的企业,其核心资产可能不仅是提供的服务本身,更是其业务过程中持续产生的、高价值的场景化交互数据。这些数据经过系统性的治理与产品化,足以反哺乃至重塑整个AI产业的训练范式。

就像出行平台这样的巨型物理世界接口:在消费者端,它仍是提供出行服务的平台;而在产业端,它的身份已经进化,成为AI理解并进入真实世界的、至关重要的物理数据入口与基础设施提供商。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策