具身智能数据与技能结构化实践：2026北京亦庄AI产业大会深度解析

2026-05-22阅读 0热度 0

北京亦庄

大语言模型依赖海量文本数据验证其扩展定律，而机器人则需应对动态、多模态且时序关联的物理世界。将杂乱数据简单堆砌，无法训练出可靠的模型。从混沌走向秩序的工业化进程中，数据质量远比数量更为关键。

机器人进入工厂与具体场景，核心挑战往往并非模型算法，而是数据本身。具身智能数据本质上是时间、空间与任务意图深度耦合的多模态资产。智域基石提出的五层数据编译管线模型，为每一层都设定了明确的质量指标。唯有构建起坚实的数据底座生态，让本体方、模型方与产业方各司其职，高质量物理世界数据才能真正流通，支撑具身智能实现规模化落地。

以下为演讲内容整理：

（徐良威丨智域基石CTO）

今天分享的主题是“从混沌到秩序”，聚焦于具身智能领域的数据供给变革与技能结构化实践。为何强调“秩序”？因为具身智能的出现揭示，过往在大语言模型、自动驾驶等领域的数据实践方法已显不足。本次探讨将围绕两个核心展开：一是如何实现具身智能数据的标准化与工业化供给；二是如何将数据与模型、本体及产业场景深度融合，构建协同生态，而非孤立地处理数据。

审视机器人落地现状。预计到2026年，我们将目睹一批机器人从实验室“原型”逐步走入真实产业。过去，焦点或许仅在于如何通过视频或演示展现实验室算法。如今局面已然不同——将机器人从受控的实验室环境部署至真实场景，意味着它必须持续、稳定地处理不确定的、动态的、多模态的复杂环境输入，并与物理世界进行可靠交互。此时，稳定且高质量的数据供给成为决定性因素。

有一个观点很准确：模型定义了机器人能力的上限，却难以保障其在最恶劣环境下的表现底线。毕竟，许多新兴场景连人类都未必能妥善应对。因此，我们必须系统性地思考，如何将真实场景中的全部数据——包括本体状态、环境感知、任务指令乃至操作日志——纳入机器人训练的完整闭环。唯有如此，才能将“演示级”的原型，转化为能够在产业中持续、稳定运行的解决方案。

在大语言模型领域，扩展定律常被提及，即数据规模越大，模型性能往往越好。这一逻辑本身成立，但具身智能面对的不是结构化文本。在多模态、强时序的数据领域，我们发现，若只是简单堆砌数据——例如混杂互联网信息、各类机器人操作记录与仿真数据——模型或许能够训练，但杂乱无章的数据堆砌很难产出更优的模型。我们必须同时权衡数量与质量。

这里的“质量”贯穿于全链路：从数据采集、质量检验、预标注，到人机回环的闭环验证，再到数据后处理与导出，最终进入模型训练，形成从模型到数据的完整反馈环。每个环节都需要严格的质量控制。任一环节的疏漏，影响的可能不仅是模型训练的成功率，更在于当模型搭载于本体并进入真实场景后，一旦发生问题，我们能否快速回溯至数据层面或训练闭环中的具体节点。这就是我们对数据的要求：数量是基础，质量是生命线，且质量必须可度量、可追溯。

技术路径呈现多样性。常见的视觉-语言-动作模型主要基于模仿学习，输入视觉场景与语言指令，输出动作轨迹。另一条主流路径是世界模型，它在模型中嵌入了动作干预，关注“施加动作后物理世界如何演变”，更强调因果推理。尽管VLA模型与世界模型在架构上存在差异，但它们都依赖于同一种底层资产：源自真实世界的、结构化的高质量数据。关键在于，定义好适用于最终任务的数据范式，通过技术手段将物理信息数字化、结构化，转化为模型可用的输入。原始数据可能相同，中间处理流程或有侧重，但均可基于同一套数据底座展开。

所谓数据底座，是一套能够完整记录真实场景、任务、成功/失败案例以及与环境全部交互的系统，其目标是将这些信息输入模型，使模型能在真实世界中形成学习闭环。数据来源可以是机器人本体——例如通过人工示教操控机器人来采集数据；也可以是人类的第一人称视角记录，将人的劳动过程数字化，进而用于训练VLA或世界模型，使机器人习得人类技能。其本质都是将本体与环境的交互，从物理概念转化为可计算的数字化资产。智域基石构建的正是这样一套数据底座，无论前端数据如何流入，都能通过标准化的数据编译管线进行处理，输出模型可用的数据，最终完成从数据到本体，再到场景反馈的闭环。

那么，如何将一个任务的原始记录转化为模型可用的数据？流程大致如下：首先，明确定义任务与数据采集规范。需要完整记录机器人“感知到什么”、“接收到什么指令”、“执行了什么动作”，更要关注前因后果：执行前的场景状态、基于该状态的决策、执行的动作、动作后的世界状态变化等。这既包括所有传感器的原始流数据，也包含任务层面的规划与推演信息。将这些现场记录与任务信息整合后，通过后续处理，才能转化为具身智能所需的数据资产。此过程涉及关键信息提取、成功与失败案例的标注与归因，甚至包括失败后的重试策略及其结果记录——这些都是将原始数据转化为有效训练样本的核心步骤。

为此，智域基石提出了一个五层数据编译管线模型。我们认为，原始数据采集后直接存储是远远不够的，中间需要经过多道处理流程，且每一道都有其关键质量指标。只有每一步都执行到位，数据才能从简单的“存档”转变为可流通、可复用的“资产”，进而支撑上层场景、模型与本体的对接与应用。

五层数据编译管线详解

第一层：数据质检。 采集是将物理信号转为数字信号的第一步，产生的原始数据往往是杂乱、非结构化的。数据质检就是第一道关卡，评估数据是否满足后续处理的基本要求。

第二层：数据对齐。 具身智能数据不是孤立的画面或视频，而是多模态且强时序关联的。这一层要完成时间、空间的对齐与结构化，使数据能被算法和机器理解，支持横向（跨模态）与纵向（时序）的精准索引。

第三层：语义与因果提取。 从结构化数据中，进一步提取出语义信息与因果关系。例如，智能体在环境中如何交互？动作与意图如何对齐？前后状态有何因果关联？至此，数据已基本可供模型使用。

第四层：大规模数据治理。 要实现模型泛化，需要处理规模可能达上亿甚至上千亿小时的数据。如何在这类时空与任务强耦合的数据中，快速检索出特定模型所需的数据样本，是一大技术挑战。

第五层：交付。 将经过处理、对齐、提取和治理后的数据，按需交付给客户或模型训练流程使用。

技术管线实现了从数据到训练前的闭环，但完整的价值闭环远未结束。数据必须被模型公司真正用起来，而训练出的模型还需搭载到机器人本体上，在产业中落地应用，并从产业获得持续反馈，回流至数据层。只有这样，数据才能流动起来，智能才能从单点突破走向体系化部署。在这个过程中，数据方扮演着核心枢纽角色，需要对接本体、模型与产业三方。

目前，许多数据工作仍以项目制形式开展，而模型尚未收敛，本体方案百花齐放，产业也正在逐步融入具身智能浪潮。智域基石的目标不仅是完成数据项目交付，更是通过与本體、模型、产业各方的对接，将项目制能力转化为一套可供整个具身智能领域使用的基础设施。这意味着，我们提供的不仅是一份数据报告，更是支撑整个产业发展的数据基座。未来，任何产业方、本体公司或模型团队，都应能从这个生态中便捷地获取所需的高质量数据。

归根结底，我们希望推动一种新的数据分工生态。让本体公司、模型公司或产业方各自独立去搞数据，难以支撑整个产业的规模化发展。只有构建起协作的生态，让高质量物理世界数据在其中顺畅流通，具身智能行业才能真正走向繁荣。

分享就到这里，谢谢大家。

具身智能数据与技能结构化实践：2026北京亦庄AI产业大会深度解析

五层数据编译管线详解

相关阅读

最新教程

最新资讯