机器人训练数据基础设施XDOF完成7000万美元融资

2026-06-18阅读 0热度 0
基础设施

两周前,OpenAI宣布重启2021年关闭的机器人项目,这标志着各大AI实验室正加速推进机器人在物理世界落地。然而,打造高性能机器人的核心瓶颈在于缺乏专属于机器人的大规模训练数据——其体量需与训练大语言模型的数据相当。

XDOF:机器人训练数据领域的新兴基础设施公司融资7000万美元

这一数据空白正催生出一个全新的基础设施市场。大语言模型可利用海量公开文本训练,但机器人需要采集物理交互数据——这类数据目前几乎为零。YouTube视频或众包拍摄的素材质量不足,难以精准映射真实物理世界。

今天,初创公司XDOF(读音“ecks-doff”)正式亮相。其观点认为,AI领域下一个关键瓶颈并非模型或芯片,而是训练机器人与物理世界交互所需的数据反馈循环。

这家公司计划搭建专用的数据管道、采集工具和标注系统,服务于那些不愿或难以自行搭建的AI实验室和机器人公司。XDOF已从Thrive Capital、Spark Capital、a16z、Lux和WndrCo获得7000万美元融资。联合创始人兼CEO吴非常(Philippe Wu)透露,公司目前约60人,已与包括多家顶级AI实验室在内的20家客户合作——但具体名单不便公开。

“所有顶尖实验室都在押注机器人,”吴非常表示,“大语言模型竞赛中落败的代价已经足够惨痛……你不会想在实体AI这个下一前沿领域因入局太晚而重蹈覆辙吧?所有人都在这条船上。”

事实上,吴非常在加州大学伯克利分校攻读博士期间就深有体会。他的研究方向是让机器人从大规模数据集中习得技能,但面临的数据困境扑面而来。

“我们根本没有大规模数据可用,”他向TechCrunch表示,“这成了典型的先有鸡还是先有蛋难题——在讨论如何训练机器人基础模型之前,必须先采集数据。”

吴非常与另一位联合创始人、CTO沈富(Fred Shentu)曾共同参与GELLO项目,这是一套低成本的远程操控系统,人类操作员可直接操控机械臂生成训练数据。“那篇论文在机器人圈内影响较大,因为很多人面临相同瓶颈,许多研究团队已用类似设备采集数据,”吴非常说。

发现这一机遇后,吴非常、沈富与第三位联合创始人、首席运营官金楠(Nemo Jin)于2024年10月共同创立XDOF,旨在为致力于机器人模型的公司提供完整数据生态系统。公司深知仅靠出售数据难以持续,因此也布局数据清洗、工具开发和标注业务,构建机器人训练的自我强化反馈闭环。

作为起点,XDOF正与加州大学伯克利分校AI研究实验室合作,发布据称是迄今为止最大规模的高质量机器人训练数据集ABC。该数据集包含13万条机器人实际操作轨迹、300小时仿真数据及100小时评估数据。此前,如此体量的预训练数据从未向学术界开放。

“从语言、图像生成及其他领域的经验来看,一旦模型和数据公开,研究社区往往能带来远超预期的成果,”参与发布的伯克利博士生David McAllister(大卫·麦卡利斯特)告诉TechCrunch。

团队已利用这些数据训练机器人完成折叠T恤、压平纸箱、将AirPods放回充电盒等基准任务。

无限自由度:机器人训练数据的三层金字塔

XDOF的业务构想围绕数据金字塔的三个层级:最高价值层级是在实际部署的机器人上通过远程操控采集的数据;中间层级是利用GELLO等设备由远程操控机器人采集的通用数据;底层则是人类在日常任务中佩戴自研传感器采集的“第一视角”数据。

“摄像头的选型直接影响数据质量,进而影响手部追踪算法的表现,”吴非常表示,“如果初始硬件设计不到位,采集的数据中往往会隐藏难以预料的陷阱。”

公司计划在全球招募并培训大量远程操控员和第一视角数据采集员。但一个自然的问题是:为何大型实验室不自行承担这种劳动密集型工作?

“你需要数十万平方英尺的仓库、几百台机器人,”吴非常解释,“还要维护机器人、校准物理参数、系统培训操作员……”

这种规模化建设需要极高的专注度、大量资本和运营体量。大多数AI实验室更倾向于将这类繁琐工作外包——这正是XDOF瞄准的市场空间。

“XDOF”名称源自机器人领域的术语“自由度”(degrees of freedom),指机器人能完成的独立运动数量。人类手臂从肩膀到手腕有七个自由度,Figure.AI最新人形机器人则拥有30个自由度。公司名称中的“X”代表其野心:“任意自由度,无限自由度,”吴非常说。

常见问题解答

Q1:XDOF的定位与主营业务是什么?

A:XDOF成立于2024年10月,专注于机器人训练数据基础设施。主要为AI实验室和机器人公司提供数据管道、采集工具及标注系统,解决机器人训练中高质量物理交互数据严重匮乏的问题。目前已获7000万美元融资,拥有约60名员工,与20家客户达成合作。

Q2:ABC数据集包含什么?有何意义?

A:ABC是XDOF与加州大学伯克利分校AI研究实验室联合发布的高质量机器人训练数据集,据称为迄今最大规模。包含13万条操作轨迹、300小时仿真数据及100小时评估数据。此前如此体量的预训练数据从未向学术界开放,有望推动机器人领域突破性进展。

Q3:XDOF如何采集机器人训练数据?

A:XDOF采用三层数据金字塔采集方式:最高层为实际部署机器人上的远程操控数据;中间层使用GELLO等设备采集通用数据;底层由人类佩戴自研传感器在日常任务中采集第一视角数据。公司还计划全球招募培训大量操控员,以规模化运营提供数据服务。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策