具身智能数据与技能结构化实践:2026北京亦庄AI产业大会深度解析

2026-05-22阅读 0热度 0
北京亦庄

大语言模型依赖海量文本数据验证其扩展定律,而机器人则需应对动态、多模态且时序关联的物理世界。将杂乱数据简单堆砌,无法训练出可靠的模型。从混沌走向秩序的工业化进程中,数据质量远比数量更为关键。

机器人进入工厂与具体场景,核心挑战往往并非模型算法,而是数据本身。具身智能数据本质上是时间、空间与任务意图深度耦合的多模态资产。智域基石提出的五层数据编译管线模型,为每一层都设定了明确的质量指标。唯有构建起坚实的数据底座生态,让本体方、模型方与产业方各司其职,高质量物理世界数据才能真正流通,支撑具身智能实现规模化落地。

以下为演讲内容整理:

(徐良威丨智域基石CTO)

今天分享的主题是“从混沌到秩序”,聚焦于具身智能领域的数据供给变革与技能结构化实践。为何强调“秩序”?因为具身智能的出现揭示,过往在大语言模型、自动驾驶等领域的数据实践方法已显不足。本次探讨将围绕两个核心展开:一是如何实现具身智能数据的标准化与工业化供给;二是如何将数据与模型、本体及产业场景深度融合,构建协同生态,而非孤立地处理数据。

审视机器人落地现状。预计到2026年,我们将目睹一批机器人从实验室“原型”逐步走入真实产业。过去,焦点或许仅在于如何通过视频或演示展现实验室算法。如今局面已然不同——将机器人从受控的实验室环境部署至真实场景,意味着它必须持续、稳定地处理不确定的、动态的、多模态的复杂环境输入,并与物理世界进行可靠交互。此时,稳定且高质量的数据供给成为决定性因素。

有一个观点很准确:模型定义了机器人能力的上限,却难以保障其在最恶劣环境下的表现底线。毕竟,许多新兴场景连人类都未必能妥善应对。因此,我们必须系统性地思考,如何将真实场景中的全部数据——包括本体状态、环境感知、任务指令乃至操作日志——纳入机器人训练的完整闭环。唯有如此,才能将“演示级”的原型,转化为能够在产业中持续、稳定运行的解决方案。

在大语言模型领域,扩展定律常被提及,即数据规模越大,模型性能往往越好。这一逻辑本身成立,但具身智能面对的不是结构化文本。在多模态、强时序的数据领域,我们发现,若只是简单堆砌数据——例如混杂互联网信息、各类机器人操作记录与仿真数据——模型或许能够训练,但杂乱无章的数据堆砌很难产出更优的模型。我们必须同时权衡数量与质量。

这里的“质量”贯穿于全链路:从数据采集、质量检验、预标注,到人机回环的闭环验证,再到数据后处理与导出,最终进入模型训练,形成从模型到数据的完整反馈环。每个环节都需要严格的质量控制。任一环节的疏漏,影响的可能不仅是模型训练的成功率,更在于当模型搭载于本体并进入真实场景后,一旦发生问题,我们能否快速回溯至数据层面或训练闭环中的具体节点。这就是我们对数据的要求:数量是基础,质量是生命线,且质量必须可度量、可追溯。

技术路径呈现多样性。常见的视觉-语言-动作模型主要基于模仿学习,输入视觉场景与语言指令,输出动作轨迹。另一条主流路径是世界模型,它在模型中嵌入了动作干预,关注“施加动作后物理世界如何演变”,更强调因果推理。尽管VLA模型与世界模型在架构上存在差异,但它们都依赖于同一种底层资产:源自真实世界的、结构化的高质量数据。关键在于,定义好适用于最终任务的数据范式,通过技术手段将物理信息数字化、结构化,转化为模型可用的输入。原始数据可能相同,中间处理流程或有侧重,但均可基于同一套数据底座展开。

所谓数据底座,是一套能够完整记录真实场景、任务、成功/失败案例以及与环境全部交互的系统,其目标是将这些信息输入模型,使模型能在真实世界中形成学习闭环。数据来源可以是机器人本体——例如通过人工示教操控机器人来采集数据;也可以是人类的第一人称视角记录,将人的劳动过程数字化,进而用于训练VLA或世界模型,使机器人习得人类技能。其本质都是将本体与环境的交互,从物理概念转化为可计算的数字化资产。智域基石构建的正是这样一套数据底座,无论前端数据如何流入,都能通过标准化的数据编译管线进行处理,输出模型可用的数据,最终完成从数据到本体,再到场景反馈的闭环。

那么,如何将一个任务的原始记录转化为模型可用的数据?流程大致如下:首先,明确定义任务与数据采集规范。需要完整记录机器人“感知到什么”、“接收到什么指令”、“执行了什么动作”,更要关注前因后果:执行前的场景状态、基于该状态的决策、执行的动作、动作后的世界状态变化等。这既包括所有传感器的原始流数据,也包含任务层面的规划与推演信息。将这些现场记录与任务信息整合后,通过后续处理,才能转化为具身智能所需的数据资产。此过程涉及关键信息提取、成功与失败案例的标注与归因,甚至包括失败后的重试策略及其结果记录——这些都是将原始数据转化为有效训练样本的核心步骤。

为此,智域基石提出了一个五层数据编译管线模型。我们认为,原始数据采集后直接存储是远远不够的,中间需要经过多道处理流程,且每一道都有其关键质量指标。只有每一步都执行到位,数据才能从简单的“存档”转变为可流通、可复用的“资产”,进而支撑上层场景、模型与本体的对接与应用。

五层数据编译管线详解

第一层:数据质检。 采集是将物理信号转为数字信号的第一步,产生的原始数据往往是杂乱、非结构化的。数据质检就是第一道关卡,评估数据是否满足后续处理的基本要求。

第二层:数据对齐。 具身智能数据不是孤立的画面或视频,而是多模态且强时序关联的。这一层要完成时间、空间的对齐与结构化,使数据能被算法和机器理解,支持横向(跨模态)与纵向(时序)的精准索引。

第三层:语义与因果提取。 从结构化数据中,进一步提取出语义信息与因果关系。例如,智能体在环境中如何交互?动作与意图如何对齐?前后状态有何因果关联?至此,数据已基本可供模型使用。

第四层:大规模数据治理。 要实现模型泛化,需要处理规模可能达上亿甚至上千亿小时的数据。如何在这类时空与任务强耦合的数据中,快速检索出特定模型所需的数据样本,是一大技术挑战。

第五层:交付。 将经过处理、对齐、提取和治理后的数据,按需交付给客户或模型训练流程使用。

技术管线实现了从数据到训练前的闭环,但完整的价值闭环远未结束。数据必须被模型公司真正用起来,而训练出的模型还需搭载到机器人本体上,在产业中落地应用,并从产业获得持续反馈,回流至数据层。只有这样,数据才能流动起来,智能才能从单点突破走向体系化部署。在这个过程中,数据方扮演着核心枢纽角色,需要对接本体、模型与产业三方。

目前,许多数据工作仍以项目制形式开展,而模型尚未收敛,本体方案百花齐放,产业也正在逐步融入具身智能浪潮。智域基石的目标不仅是完成数据项目交付,更是通过与本體、模型、产业各方的对接,将项目制能力转化为一套可供整个具身智能领域使用的基础设施。这意味着,我们提供的不仅是一份数据报告,更是支撑整个产业发展的数据基座。未来,任何产业方、本体公司或模型团队,都应能从这个生态中便捷地获取所需的高质量数据。

归根结底,我们希望推动一种新的数据分工生态。让本体公司、模型公司或产业方各自独立去搞数据,难以支撑整个产业的规模化发展。只有构建起协作的生态,让高质量物理世界数据在其中顺畅流通,具身智能行业才能真正走向繁荣。

分享就到这里,谢谢大家。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策