具身智能数据变现排行榜:谁先赚到钱
结论很明确:数据采集这门“铲子”生意,已经进入盈利期。
2023年的“百模大战”让算力硬件商这批“卖铲子”的率先赚得盆满钵满。如今,相似的剧本正在具身智能产业复刻——数据采集从业者正密集完成融资,订单量激增。
几个典型案例足以说明趋势:3月,光轮智能完成10亿元融资,成为全球首家具身数据独角兽,一季度入账5.5亿元订单;4月,无问智科完成超亿元融资,同期订单额达数亿量级;弈人科技同月完成Pre-A+和Pre-A++两轮亿元级融资,2025年已实现盈利,2026年一季度具身订单总额超过去年全年营收。智元机器人则将该业务独立分拆,成立觅蜂科技。
不只是初创公司抢跑,互联网巨头同样坐不住。京东发布具身智能数据全链路基础设施,计划动员包括快递员、骑手在内的60万人众包采集,目标两年内在真实场景中积累1000万小时视频数据。百度选择“数据超市”模式入场。
行业热度骤升,背后的逻辑并不复杂。正如觅蜂科技董事长兼CEO姚卯青所言:在具身智能大规模商业化之前,数据作为基础设施,必然比终端应用更早形成商业回报。
那么,具身智能的数据从何而来?目前主要分为四类,结构类似金字塔。最顶层是“高精度遥操作”获取的真机数据,质量最精准,价格也最高,是人形机器人落地的关键一环;中间层是仿真与合成数据,成本低、可规模化量产,弥补真机数据的不足;底层源于人类视频——互联网视频、人类行为数据,来源广泛,泛化能力强;此外,还有一条特殊的技术路径UMI,一种低成本、无需机器人本体即可执行的数据采集范式。
发展至今,数据采集赛道已分化为四个流派。真机数据由智元这类头部机器人公司主导,本体与数据闭环协同推进,数据业务本质是内部能力对外输出;仿真合成数据则由光轮智能等数据基础设施服务商主导;京东、中国移动这类跨界平台型巨头,依靠产业场景优势切入,采用混合采集模式;还有UMI型公司,如鹿明机器人、松灵机器人,专注于提供标准化、模块化的采集硬件。
不难看出,2026年已成为具身智能数据规模化的元年。各色厂商纷纷挂上“数据服务商”的新招牌,凭借刚性需求、高壁垒和可复制的商业模式,在这条新产业链上收割红利。
数据缺口超99%,催生“合成数据”赛道新独角兽,三家公司已拿下数亿订单
具身智能大模型(VLA/世界模型)的训练,需要海量、多模态、高保真的物理交互数据。然而截至2026年初,全球高质量的真实物理交互数据总量仅约50万小时。行业共识是,训练通用具身模型至少需要千万小时级数据——缺口超过99%。
供需严重失衡,数据成为稀缺资源,买方市场几乎是“有多少吞多少”。数据采集由此顺理成章地成为具身智能产业中的一把新“铲子”,再次印证了“数据先行、铲子先富”的规律。
值得关注的是,光轮智能、无问智科、弈人科技这些明星公司并非全部赶在具身智能热潮后才成立。它们大多诞生于智能驾驶浪潮中,走的是“仿真/合成数据”路线,随后逐步向真机数据拓展,走上融合发展之路。
2023年,大语言模型和视觉语言模型取得突破,业界普遍尝试为机器人装上“大脑”,使其从传统自动化设备进化为具备感知、决策能力的“具身智能”。同年2月,智元成立并迅速推出首款人形机器人,引发资本与科技界广泛关注,成为中国具身智能创业浪潮的标杆事件。
光轮智能于2023年1月成立,定位合成数据公司,为企业AI落地提供合成数据解决方案。到2026年3月,公司官宣完成10亿元的A++和A+++轮融资,成为全球首家具身数据独角兽;5月又获得蚂蚁集团领投的新一轮融资,投后估值超20亿美元,短短两个月估值翻倍。
无问智科2022年11月成立,但2023年5月才正式启动运营。官网介绍中多次提及智能驾驶,核心是用AI驱动的大模型仿真技术为自动驾驶保驾护航。2024年具身智能热度飙升,智元、宇树科技接连完成两轮融资。无问智科趁势在2024年8月宣布天使轮融资时表示,深耕自动驾驶赛道,将逐步拓展至机器人与具身智能。到2026年4月官宣超亿元新融资时,其定位已升级为“物理AI数据基座企业”。
据介绍,基于全国首个虚实融合的长三角(德清)具身智能数据采集训练场,无问智科日产数据上千小时,具备万级规模合成数据和千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业。2026年一季度又与字节跳动、无界动力、章鱼动力等签署订单,当前在手订单数亿元,今年营收将破亿。
光轮智能则将人类数据与仿真工具整合为闭环基础设施,人类数据交付量位居全球第一。其视频数据产品覆盖2.5万多个环境节点、10万多种任务,累计交付超150万小时。2025年,公司全年营收增长10倍;2026年一季度收入预计超过去年全年总和,仅新增订单就达5.5亿元。
更典型的案例是2013年成立的弈人科技。它利用自动驾驶积累的车辆感知网络,抓住时机转型采集具身智能数据,2025年AI数据业务收入过亿元,在国内率先实现正向盈利。在具身智能领域,公司已落地多个场景应用,拿下头部客户订单,仅2026年一季度新增订单就超亿元。
已过会的宇树科技招股书显示,这家2016年成立的公司,2022年用6年时间才实现1.23亿元营收,至2024年才扭亏为盈,净利润约9547万元。相比之下,光轮智能、无问智科成立仅3年,2026年便迈过亿级营收门槛,成为“卖数据的先赚钱”的活案例。
智元下场孵化,京东、百度、中国移动悉数入场
随着硬件本体日趋成熟,高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据,已成为未来五年决定具身智能商业化落地的胜负手。
智元合伙人、高级副总裁姚卯青显然深谙此道。早在2024年5月,他就牵头建成行业规模最大的数采超级工厂,面积达4000平米,部署近百台远征A2-D专机,单机单日即可采集上千条数据,这是当前“真机数据”领域的代表性玩家。仅半年后,智元联合上海人工智能实验室、国家地方共建人形机器人创新中心和上海库帕思,开源了全球首个基于全域真实场景的百万真机数据集AgiBot World。凭借这种“本体-数据-模型-场景”重度耦合的战略闭环,智元在2026年4月的评选中,与光轮智能、国家地方共建人形机器人创新中心一起,跻身国内具身智能数据赛道前三甲。
姚卯青多次强调:当前机器人行业的瓶颈不在算力而在数据,“高质量真机数据是实现智能涌现的关键前提”。他还指出,行业中有大量仿真模拟数据,但无法替代真实物理交互中产生的细粒度感知信息。智元的策略是“以真机为主,仿真为辅”,只有真实场景采集的数据才能真正驱动机器人智能质变。公司内部有一个清晰的量化目标:两年内积累千万小时级别的真实场景数据。
这一目标的实现离不开觅蜂科技的数据采集体系。2026年2月,姚卯青推动智元业务拆分出觅蜂科技,并亲自出任董事长兼CEO。这家公司聚焦具身智能数据基础设施,深度应用并推广UMI技术(但并非单纯的UMI型公司),致力于打造独立开放的物理AI数据服务平台。成立仅10天便完成数亿元种子轮和天使轮融资。
据澎湃科技消息,当前具身智能数据总体定价在200-500元/小时。其中,机器人在现实场景实际操作采集的真机数据需求最旺盛,价格也最贵,国内市场价格在500-1000元/小时。姚卯青透露,随着产能逐步稳定,不依赖特定机器人本体的无本体数据,价格最终将收敛到真机数据的一半到三分之一。例如真机数据售价1000元/小时,无本体数据未来可能稳定在300-400元。
数据稀缺且价格处于高位,嗅觉灵敏的互联网大厂和工业巨头自然不会坐视。今年以来,它们接二连三下场,紧盯数据采集这块肥肉,强势切入具身智能产业链。
百度走的是“数据超市”模式。4月10日,百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业,推出“具身智能数据超市(Beta版)”,首创层级化、可扩展的数据标签体系,加速规模化落地。值得注意的是,鹿明机器人虽然以UMI协议数据为主,同样选择了“数据超市”模式——今年3月推出行业首个“FastUMI Pro数据超市”。
大模型对数据的需求维度正呈几何级膨胀,单一技术路线已无法满足“规模、成本、精度、泛化”的苛刻要求。行业全面迈向多源融合采集时代:以人类视频注入通用物理常识,以仿真合成数据覆盖长尾边界,以UMI采集分布式扩充真实交互动作,最后结合高精度遥操作进行垂直场景的专家级微调。
京东就是典型案例。3月16日,它宣布建设具身智能数据采集中心,计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景,采集视觉、触觉、空间轨迹等多维度数据。方案将发动内部超10万员工和外部最多50万人,计划一年内积累500万小时人类真实场景视频数据,两年内总时长突破1000万小时,同步采集100万小时机器人本体数据。该中心主要采用基于可穿戴设备的人类第一视角真实场景数据采集,辅以真机遥操作,属于无本体数据与多模态真实交互数据相结合的混合采集模式。
中国移动同样如此。5月8日,它围绕家庭生活场景推出1200平米的“灵犀数霄”具身智能训练场,核心是一套从数据采集、合成、处理到应用的全链路闭环——混合了真机遥操作、无本体轻量化采集和仿真合成数据。
不难看出,在具身智能产业链上,数据采集这门“铲子生意”正从分散走向平台化供给。它不再是某家机器人公司的附属业务,而是独立跑出了一套完整的商业逻辑,成为被资本市场单独定价、被产业巨头系统性押注的关键赛道。


