专访Noitom Robotics戴若犁：解决机器人数据难题，我的独家方案与行业洞察

2026-05-16阅读 0热度 0

人工智能

一个周六的午后，诺亦腾机器人公司楼下。联合创始人戴若犁博士如约而至，如今的他，也是这家机器人数据公司的掌舵人。交谈中，技术洞察的锐利与商业决策的笃定清晰可辨。

回溯十多年前诺亦腾的创立，他仍能准确说出iPhone首颗陀螺仪芯片的型号：L3G4200D。正是这颗芯片，点燃了动作捕捉技术走向消费市场的想象。从影视、VR到数字医疗，诺亦腾的轨迹横跨多个行业。如今，当机器人浪潮席卷而至，他再次精准地锚定了核心：数据。

“2024年，机器人业务营收增长了5倍，2025年继续攀升。两年累计近40倍的增长，作为管理者，这是一个不容忽视的强烈信号。”戴若犁说道。今年初，他果断将机器人业务拆分，成立了一家专注于此的新公司。“我们就是最适合的团队，也是行业内唯一清楚机器人数据业务该如何系统化构建的公司。”他的语气不容置疑。

戴若犁博士将出席2025年GAIR全球人工智能与机器人大会的数据专场，分享主题报告《用动作捕捉技术构建具身智能数据工厂》。GAIR大会始终关注人工智能的核心突破、前沿趋势与产业实践，本届大会定于2025年12月12-13日在深圳举办。

以下为对话实录，经编辑：

01 Noitom Robotics：一家机器人数据公司

问：将机器人业务拆分出来的契机是什么？

戴若犁：拆分源于一个明确且迅猛的市场信号。自2014年销售产品起，我们的客户中就包括斯坦福、UC Berkeley、东京大学等机器人研究机构。但在很长一段时间里，机器人业务营收占比不足5%，在报表上甚至无法单独列示。

真正的转折在2023年下半年。当时，美国两家知名机器人公司向我们提出了一个“疯狂”的采购需求：上百套动作捕捉设备。这个数量级在当时看来难以置信。

然而，正是这次询价拉开了质变的序幕。2024年，机器人订单总额增长5-6倍；2025年在此基础上又增长约6-7倍。两年近40倍的增幅，让这项业务从边缘走向核心。

我们深入分析后发现，需求本质已变。过去，动作捕捉数据以“秒”计价，成本高昂；如今，机器人行业需要的是以“小时”、“万条”乃至“十万小时”为单位的海量数据。需求天花板被彻底击穿，商业模式也随之演化——不再仅是硬件或服务销售，更包括构建自有数据集。因此，今年初我们决定拆分，成立专注于此的新公司。

问：诺亦腾机器人公司的融资情况如何？

戴若犁：公司已完成累计数亿元的两轮融资，近期将有进一步消息公布。

问：公司是面向B端市场的吗？

戴若犁：是的，这是典型的To B业务。但首先要明确：我们不是一家机器人数据采集设备公司，也不是单纯的项目服务商。我们是一家机器人数据公司，交易的最终交付物是数据本身。

我们也会销售设备、提供服务，但这更多是建立合作的起点，服务于未来的数据业务。理想的模式是，我们投入固定资产，直接为客户交付数据，让交割界面更轻。我们希望将复杂性留在内部，而非转嫁给客户。

问：目前有做得特别成功的大型数据公司吗？

戴若犁：美国有Scale AI、Mercor和Surge AI等代表性公司，各有专长，营收规模达十亿至数十亿美元，但在行业外相对低调。国内如曼孚等公司也表现不错，各大厂亦有自建的数据服务业务。

数据本质是To B业务。在自动驾驶和大模型领域，因甲方自身拥有强大的原始数据获取能力，数据公司往往更接近人力外包（BPO），利润空间受限于人力成本。但机器人行业不同——甲方普遍缺乏数据，这创造了全新的价值空间。

问：你们会对标这些公司吗？

戴若犁：没有直接对标。机器人数据的需求在2023年底才显现，2024年萌芽，2025年刚有起色，预计明年进入快速发展期。因此，这个领域尚无成熟的标杆。

美国公司在数据处理的“后端”有可借鉴之处，但我们必须先解决“前端”的数据获取难题。因为机器人行业的甲方普遍缺数据，这要求我们探索全新的路径。

问：与其他机器人数据公司相比，你们的优势是什么？

戴若犁：坦率地说，目前尚未看到在规模或工程积累上值得特别关注的对手。市场上有一些销售采集设备或承接项目的公司，但规模有限。

关键在于，成为一家机器人数据公司，远不止于拥有设备或承接项目。这中间的差距巨大。数据复杂度极高，必须保证保真、低成本、大规模高效获取，并且能跨本体（即跨客户）使用。如果数据只能服务单一客户，那就只是项目公司。

我们的优势在于：第一，拥有成熟的产品交付和复杂项目交付能力。诺亦腾的惯性动捕设备曾占据全球超70%市场份额，我们交付过数千万级别、涉及上千人的大型项目，这方面的经验绝大多数公司不具备。

Source:Noitom Robotics

第二，也是更核心的，我们是行业内唯一清楚机器人数据业务该如何系统化运作的公司。这个市场足够大，值得“谋定而后动”，想清楚商业模式再行动。如何补短板、增长板，比单纯做事更重要。这也是我们拆分独立融资，并获得优秀投资人支持的原因。

问：创立之初就想好了公司规划？有信心做到行业第一吗？

戴若犁：规划非常清晰。独立融资就是为了将这件事做到极致。对于成为头部，我们充满信心。团队核心成员能力突出：首席科学家曾是腾讯具身模型团队核心负责人；CFO拥有美股、港股、A股上市及大型公司战投经验；硬件工程负责人来自字节跳动新石实验室。许多人降薪加入，目标绝非小事。

问：目标是上市吗？

戴若犁：上市是手段，不是目标。我们的目标是成为具身智能与机器人领域最大的数据提供商。更重要的是，真正为行业解决问题。

我认为在这个细分赛道上，没有人比我更适合解决数据获取与利用的问题。即便是在机器人本体或仿真平台理解更深的美国公司，在数据这个子赛道上，也需要来听听我们的做法。

02 数据工厂只是一块拼图

问：数据主要来自你们的数据工厂吗？

戴若犁：数据来源是多元的。工厂只是其中一种形态。例如，机器人的遥操作数据就更适合在甲方侧生产。我们会采用多种模式获取适配行业需求的数据。

问：采集数据的操作思路是什么？

戴若犁>当前具身智能与机器人的发展，底层逻辑是仿生学的胜利。无论是模型架构还是本体形态，都在高度模仿人类。因此，思考数据需求时，最不应该做的就是简单的市场调研——因为技术尚未收敛，客户也在探索，需求分散且多变。

我们的思路回归仿生学：从人类执行任务的角度出发，思考需要哪些模态、精度、量程的数据。例如，“拿起咖啡杯打量并喝一口”这个动作，就涉及视觉、触觉、力觉、本体感觉等多种信息输入。确保采集的数据能满足人类执行此类任务的“底线”输入需求，就能大概率保证未来数据在不同本体上的可用性。这就是我们技术路径选择的底层逻辑。

问：你们售卖的是真机数据吗？

戴若犁：我们提供的是“真实数据”，而非“真机数据”。两者有本质区别。真机数据是在特定机器人本体上通过遥操作或强化学习采集的，价值很高，因为它包含了该机器人独有的传感器特性、驱动特性等“本体特异性”信息。

但真机数据最大的问题在于无法跨本体。在宇树G1上采的数据，很难直接用于小鹏或宇树H1机器人，因为硬件构型差异导致数据迁移收益骤降。因此，真机数据不可或缺，但无法通用。我们选择从“人”身上采集真实数据，这正是为了解决跨本体难题。

问：采集主要依赖动作捕捉设备吗？

戴若犁：动作捕捉只是众多数据模态中的一种，主要负责获取人体姿态数据。完整的机器人数据还需要视觉、力触觉、听觉等多模态信息。因此，动捕设备只是数据采集拼图中的一块，而且是为其他行业设计的。为了满足机器人行业更苛刻的需求，我们值得从头打造全套设备与技术栈。

所以我一再强调，我们不是一家设备公司或动捕公司。搞定动捕远不等于搞定机器人数据采集，它只是解决了单一模态采集的基础门槛。要做好机器人数据，动捕公司可能只是整个产业链中的三十分之一。

问：能透露已服务哪些机器人公司吗？

戴若犁：从数量上说，已有六七十家，包括美国十几家，中国四五十家。基本上你听说过的头部公司都与我们有过交易或深度合作，无论是采购设备、服务，还是数据交易与定制。但这属于商业机密。

我们提供的服务涵盖：数据采集设备、系统集成、遥操作链路优化、URDF映射、模仿学习训练数据支持、中小规模数据集授权，以及大规模数据集定制。在这方面，我们的实践经验可能是全球最丰富的之一。

诺亦腾机器人（Noitom Robotics）曾经提供过服务的部分客户案例

问：有没有印象特别深刻的项目？

戴若犁：每个项目对我们都很重要。作为To B服务商，最重要的一点是“嘴严”，认清自己是“配角”的边界。客户信任我们，我们就不应拿合作来炫耀。能说的是，行业内许多引起刷屏讨论的杰出工作，我们都贡献过微薄之力。

Source：西湖机器人（Westlake Robotics）

问：如何看待今年很火的世界模型？

戴若犁：我们在数据预处理、增广、补全等环节都会用到世界模型。公司内部的机器人模型和多模态模型团队，其单点能力可以与多数甲方团队比肩。就像Scale AI的模型团队不逊于Anthropic或OpenAI一样，我们需要具备与客户平等对话、解决复杂问题的能力。

问：世界模型生成的数据能解决机器人数据问题吗？

戴若犁：它会成为真实数据极好的补充。机器人从物理世界或人类行为中学习的信息可分为两类：规则（Rules）和先验知识（Prior）。世界模型或物理引擎能较好地合成与仿真“规则”，但人类那些复杂、难以枚举的“先验知识”很难无中生有。

Source:World Lab

因此，更合理的关系是“增广”或“补全”。例如，基于一个蕴含大量人类先验的1000万小时真实数据集，用世界模型将其泛化到10亿小时。而不是期待构建一个全知全能、能生成一切数据的世界模型——那可能比解决机器人问题本身更难。有趣的是，世界模型本身也可能是真实数据的大买家。上个月我们美国的同事与李飞飞教授的World Labs团队交流，了解到像DeepMind、通义千问多模态这样的团队，对具有空间精度意义的多模态数据有强烈需求。单目视频缺乏空间精度，而世界模型需要双目视觉等多模态信息才能达到更高水平。

问：你们会使用UMI（通用操作接口）吗？

戴若犁：会。UMI是一种非常好的数据采集方式，它在一定程度上可以跨本体，因此我们喜欢UMI数据。

Universal Manipulation Interface（UMI）source: https://umi-gripper.github.io/

但UMI也有明显短板：它丢失了大量全身有价值的信息，且夹爪层面仍与本体绑定，迁移存在差距。因此，UMI数据在短期内验证某些能力或缩放定律时价值极高，成本低、易部署。但从长期看，信息损失太大，不足以作为大规模投入积累的方向。我们会少量涉及，以帮助客户解决实际问题，但它不是我们长期战略的重点。它有点像Sergey Levine所说的“勺叉”（Sporks of AGI），是将军赶路时旁边那只有点肥的“野兔”。

问：可以提前透露一些您在GAIR大会演讲的精彩内容吗？

戴若犁：我会提出一个“具身智能数据金字塔”的概念，分为四层，涵盖遥操作数据、多样化人本数据、互联网数据以及合成仿真数据。

还会分享我们对具身智能数据利用、以及如何解决跨本体问题的思考。是追求一个全知全能的数据集，还是分层解决，亦或是通过企业间的分工合作在不同场景下解决？我们形成了一些持续迭代的认知，希望届时能与大家分享最新的思考。

此外，也会简要介绍我们与一些杰出伙伴的合作，展示一些有趣的视频成果。相信能给大家带来一些有价值的认知和启发。

专访Noitom Robotics戴若犁：解决机器人数据难题，我的独家方案与行业洞察

01 Noitom Robotics：一家机器人数据公司

02 数据工厂只是一块拼图

相关阅读

最新教程

最新资讯