LDA模型测评：全谱系数据跑通Scaling Law的突破性进展

2026-05-18阅读 0热度 0

世界模型

具身智能领域近期迎来密集突破。

Generalist AI发布的GEN-1，以其卓越的数据效率和闭环控制性能刷新多项基准，引发行业关注。两周后，Physical Intelligence推出的π 0.7模型，则聚焦于组合泛化能力，对VLA架构进行了迭代升级。

尽管技术路径不同，但两者都指向同一个核心挑战：数据。

语言模型的飞跃始于GPT-2，它通过摆脱对精细标注数据的依赖，开启了模型规模扩展的时代。然而在具身智能领域，一个根本问题依然存在：如何让机器人高效消化真实世界中杂乱、异构的物理交互数据？

在此背景下，银河通用联合清华、北大、英伟达等机构发布了跨本体隐式世界-动作基础模型LDA-1B。这项研究直指具身智能规模扩展定律的核心：如何构建能有效利用互联网级异构数据的基础模型。

简言之，LDA-1B是一个在隐式空间中统一世界模型与视觉语言动作模型的基础架构。其关键突破在于，通过对异构数据的全面整合，模型成功处理了超过3万小时的多样化具身数据。无论是仿真环境数据还是真实世界采集（虚实融合），人类演示数据还是机器自主运行记录（人机混合），高质量专家轨迹还是存在噪声的“脏数据”（质量参差），甚至无动作标签的纯观察视频，该模型都能实现统一且高效的利用。

这意味着，模型开始具备“全数据吞吐，让所有数据各尽其用”的能力。

LDA-1B核心架构：通过统一的隐空间动力学，实现对3万小时海量异构数据的通用处理。

在RoboCasa-GR1基准测试中，LDA-1B以55.4%的成功率超越了GR00T-N1.6（47.6%）和π 0.5，并在真实世界的灵巧操作与长程任务中展现出显著优势。

这项研究已被机器人顶级会议RSS接收，模型代码现已开源。

论文标题：LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion论文地址：https://arxiv.org/abs/2602.12215项目链接：https://pku-epic.github.io/LDA/代码地址：https://github.com/jiangranlv/LDA-1B

数据输入：内容与策略

理解LDA-1B的突破，首先要审视其数据输入策略。

长期以来，真实机器人数据规模有限，人类视频缺乏动作标注，仿真数据则受限于真实性，导致不同类型数据彼此割裂，难以协同增效。

银河通用的突破，依托于其构建的完整数据基础设施——银河星数。基于此，团队搭建了“五层数据金字塔”，自下而上包括：互联网数据、人类行为数据、多本体合成仿真数据、真实遥操作数据以及真机自主运行数据。

为支撑这个1.6B参数的基础模型，研究团队基于该体系构建了规模庞大的通用具身交互数据集EI-30K。

但在数据输入模型前，需解决两个关键问题。

首先是格式与动作对齐。机器人数据与人类数据来源设备不同，执行器形态各异。团队不仅将其统一转换为标准的LeRobot格式，更首次系统性地提出了“统一末端执行器动作空间”的跨本体解决方案。

对于机器人，动作定义为6自由度末端执行器位姿加上夹爪开合或灵巧手关节状态；对于人类，则对应6自由度手腕位姿和完整的MANO手部参数。

这使得模型无需记忆特定机器人的关节运动模式，而是将所有动作统一映射到“手部如何与物体交互”的物理本质，为跨本体泛化扫清了障碍。

其次是数据质量参差不齐的利用问题。传统做法往往只采用专家数据，丢弃低质量部分。LDA-1B采取了差异化利用策略，让每类数据发挥其最大价值：

高质量带动作数据：全面参与策略学习和动力学训练，权重最高。
次优或含噪声动作数据：不用于策略学习，但专门用于动力学模型和视觉预测训练。即使动作执行有误，其中蕴含的物理规律（如物体掉落、碰撞）仍是可靠的。模型通过动力学分支从这些数据中提取有效信息。实验表明，加入30%的低质量轨迹后，模型任务成功率提升了10%。
无动作标签的纯视频：主要为人类第一视角视频。这些数据被用于视觉预测任务，使模型能够在没有动作监督的情况下，通过观察学习物理世界的自然演变先验。

这一策略带来了根本性改变：低质量数据不再是废料，无标注视频也能直接贡献于模型训练。

正是这种科学的数据分工机制，使得具身智能的数据规模得以有效扩展，为通用机器人在零售拣选、工业搬运和家庭服务等场景的大规模商业部署奠定了逻辑基础。

融合之路：VLA与世界模型的统一

拥有海量数据后，下一个问题是采用何种模型架构进行消化。

过去几年，主流答案是类似π 0.7所代表的视觉语言动作模型：接收图像和指令，直接输出动作，链路简洁，响应迅速。但其本质是基于海量数据的模式匹配，缺乏深层的物理常识理解。一旦遇到训练数据未覆盖的物理边界情况，如重心突变或摩擦力变化，性能极易崩溃。

另一条路径是世界模型。它不急于输出动作，而是先在内部进行预测：如果执行某个动作，世界状态将如何变化？然而，多数世界模型侧重于像素级视频生成，物理动力学并非其学习重点。

LDA-1B的思路是打破选择困境，在隐空间进行深度融合。它引入了统一世界模型与动作模型的WAM框架。虽然这一方向如今已成为热点，但银河通用早在2025年3月发表的论文中，已首次对WAM概念进行了结构化定义。

LDA-1B正是这一前瞻路线的延伸，它使模型在统一框架下同步学习四种核心能力：策略学习、前向动力学、逆向动力学、视觉预测。

其命名揭示了核心理念——隐式动力学动作模型：在隐空间中建模世界状态变化，并同步输出可执行的动作策略。

一体化架构：四重能力的协同

在具体实现上，LDA-1B如何整合这四种能力？关键在于三个层面的统一。

第一，统一任务形式
在LDA-1B中，策略学习、前向动力学、逆向动力学与视觉预测被统一为同一种形式：预测未来状态 + 预测未来动作。

为实现单网络多任务，模型引入了“任务嵌入”和“寄存器标记”机制。通过激活不同的任务嵌入，模型可在四种模式间灵活切换。例如，在执行“策略控制”时，使用一个视觉寄存器标记占位，模型专注于动作推演；进行“视觉预测”时则反之。

这意味着，模型不再僵硬地区分“控制”与“建模”。通过巧妙的标记切换，所有任务被转化为同一类“填空题”的变体，在同一套网络底层中流畅执行。

第二，统一表征空间
统一任务形式后，下一个问题是在何种空间中进行统一？LDA-1B的选择是：放弃像素级表示，采用DINO特征隐空间。

传统的像素级模型或基于VAE重构的隐空间，容易将物体几何、外观和动态变化混杂在一起，导致模型将大量算力浪费在预测无关的背景变化上，大规模训练效率低下。

DINO特征的优势在于：对杂乱背景不敏感，但对物体的语义和空间几何结构极度敏感。这使得模型在推演物理规律时，能够聚焦于“物体的交互与状态变化”，而非表面外观。

换言之，LDA-1B并非简单地“观看世界”，而是在“理解结构化的世界”。这一步是其能够有效实现规模扩展的根本前提。

第三，统一模型架构
在统一任务和表征之后，最后一步是选择模型架构。LDA-1B采用了多模态扩散变换器。该架构同时处理两条信息流：动作序列和未来视觉状态，通过共享的注意力机制让两者相互影响。

核心在于：动作和视觉的预测路径是分离的，但它们的“推理过程”是共享的。这带来一个关键效果：模型在预测动作时，会参考“未来世界将如何变化”；在预测世界状态时，也会考虑“动作将产生何种影响”。其本质是将物理因果关系嵌入了注意力结构之中。

三步统一——任务形式、表征空间、模型架构——使得模型能够在同一框架内，同步掌握“如何行动”与“世界如何变化”。至此，它真正拥有了一个统一的“大脑”：既能成为敏锐的行动者，也能化身精准的预测者。

性能验证：实验数据与结果

在实验部分，LDA-1B从多个维度展示了一体化架构带来的优势。

得益于结构化隐空间与一体化设计，LDA-1B在任务成功率和泛化能力上，均以显著优势超越了包括大参数模型GR00T、π 0.5在内的现有方案。

团队进行了一项消融实验：将LDA-1B中的DINO隐空间替换为传统的VAE像素重构空间，其余设置保持不变。结果模型成功率从55.4%骤降至20.0%。这表明DINO隐空间并非锦上添花，而是实现具身智能规模扩展定律的必要前提。

落地应用：从工厂到家庭

在真实世界部署中，LDA-1B所展现出的适应性与“物理直觉”，才是其最引人注目的特质。演示视频清晰揭示了该模型如何突破传统具身智能的瓶颈，解决实际商业落地的关键痛点。

面对未出现在预训练数据中的新型Galbot机器人，LDA-1B展现了强大的少样本跨本体泛化能力。这改变了以往机器人硬件更换即需漫长重新训练的困境。

LDA-1B仅需约1小时的后续适应数据，便能快速理解新硬件的动力学特性。这种高效的适配能力，是模型能够从实验室走向零售门店、物流仓库等多元场景的基础。

在典型的长程任务中，机器人需要处理严格的步骤依赖：

接收指令后，机器人必须按顺序完成抓取、转移、摆放与组合等动作，任何一步的抓取或放置失误都会导致任务失败。当用户中途更改指令时，模型能够理解意图变更并实时调整动作序列，自主纠偏以达成新目标。

同时，在高自由度灵巧手操作测试中，面对摩擦力条件复杂的“翻牛排”任务，LDA-1B凭借其对物理常识的深刻理解，实现了极高的成功率。这证明其并非简单的动作模仿，而是真正掌握了接触性任务的物理逻辑。

将一排杯子精确叠放成金字塔结构，每一层的稳定性都依赖于前一层，这对双臂协同与力控提出了极高要求。

传统模型常因单步误差累积导致整体失败，而LDA-1B通过在隐空间进行的动力学推演，能够预测动作的物理后果并进行实时纠偏。

展望

回顾具身智能的发展浪潮，其轨迹与大型语言模型的历史惊人相似。

早期依赖手工规则；随后发现数据规模效应，转向基于海量数据的行为克隆；而当前，纯模仿学习已触及物理常识的天花板。银河通用LDA-1B提供了一条新路径：通过统一模型，高效利用所有异构数据，使其既能进行“深思熟虑”的推演，又能执行“精准果断”的动作，最终像语言模型一样，从海量异构数据中持续学习世界运作规律。

目前，银河通用已将LDA-1B的核心算法与代码体系全面开源，旨在推动行业从封闭优化转向开放共建。更重要的是，这项能力并非孤立存在，它将作为核心的通用数据吞吐与跨本体学习模块，集成到银河通用的全人形通用基础模型——“银河星脑”中。

在未来路线图中，团队明确了几个关键进化方向：首先是尝试视觉表征与隐空间动力学的端到端联合学习，摆脱对固定特征的依赖；其次是引入更丰富的感知模态，并探索如何自动化化不同质量数据在训练中的分工角色。

LDA模型测评：全谱系数据跑通Scaling Law的突破性进展

数据输入：内容与策略

融合之路：VLA与世界模型的统一

一体化架构：四重能力的协同

性能验证：实验数据与结果

落地应用：从工厂到家庭

展望

相关阅读

最新教程

最新资讯