LDA模型测评:全谱系数据跑通Scaling Law的突破性进展
具身智能领域近期迎来密集突破。
Generalist AI发布的GEN-1,以其卓越的数据效率和闭环控制性能刷新多项基准,引发行业关注。两周后,Physical Intelligence推出的π 0.7模型,则聚焦于组合泛化能力,对VLA架构进行了迭代升级。
尽管技术路径不同,但两者都指向同一个核心挑战:数据。
语言模型的飞跃始于GPT-2,它通过摆脱对精细标注数据的依赖,开启了模型规模扩展的时代。然而在具身智能领域,一个根本问题依然存在:如何让机器人高效消化真实世界中杂乱、异构的物理交互数据?
在此背景下,银河通用联合清华、北大、英伟达等机构发布了跨本体隐式世界-动作基础模型LDA-1B。这项研究直指具身智能规模扩展定律的核心:如何构建能有效利用互联网级异构数据的基础模型。
简言之,LDA-1B是一个在隐式空间中统一世界模型与视觉语言动作模型的基础架构。其关键突破在于,通过对异构数据的全面整合,模型成功处理了超过3万小时的多样化具身数据。无论是仿真环境数据还是真实世界采集(虚实融合),人类演示数据还是机器自主运行记录(人机混合),高质量专家轨迹还是存在噪声的“脏数据”(质量参差),甚至无动作标签的纯观察视频,该模型都能实现统一且高效的利用。
这意味着,模型开始具备“全数据吞吐,让所有数据各尽其用”的能力。
LDA-1B核心架构:通过统一的隐空间动力学,实现对3万小时海量异构数据的通用处理。
在RoboCasa-GR1基准测试中,LDA-1B以55.4%的成功率超越了GR00T-N1.6(47.6%)和π 0.5,并在真实世界的灵巧操作与长程任务中展现出显著优势。
这项研究已被机器人顶级会议RSS接收,模型代码现已开源。
论文标题:LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion论文地址:https://arxiv.org/abs/2602.12215项目链接:https://pku-epic.github.io/LDA/代码地址:https://github.com/jiangranlv/LDA-1B
数据输入:内容与策略
理解LDA-1B的突破,首先要审视其数据输入策略。
长期以来,真实机器人数据规模有限,人类视频缺乏动作标注,仿真数据则受限于真实性,导致不同类型数据彼此割裂,难以协同增效。
银河通用的突破,依托于其构建的完整数据基础设施——银河星数。基于此,团队搭建了“五层数据金字塔”,自下而上包括:互联网数据、人类行为数据、多本体合成仿真数据、真实遥操作数据以及真机自主运行数据。
为支撑这个1.6B参数的基础模型,研究团队基于该体系构建了规模庞大的通用具身交互数据集EI-30K。
但在数据输入模型前,需解决两个关键问题。
首先是格式与动作对齐。机器人数据与人类数据来源设备不同,执行器形态各异。团队不仅将其统一转换为标准的LeRobot格式,更首次系统性地提出了“统一末端执行器动作空间”的跨本体解决方案。
对于机器人,动作定义为6自由度末端执行器位姿加上夹爪开合或灵巧手关节状态;对于人类,则对应6自由度手腕位姿和完整的MANO手部参数。
这使得模型无需记忆特定机器人的关节运动模式,而是将所有动作统一映射到“手部如何与物体交互”的物理本质,为跨本体泛化扫清了障碍。
其次是数据质量参差不齐的利用问题。传统做法往往只采用专家数据,丢弃低质量部分。LDA-1B采取了差异化利用策略,让每类数据发挥其最大价值:
- 高质量带动作数据:全面参与策略学习和动力学训练,权重最高。
- 次优或含噪声动作数据:不用于策略学习,但专门用于动力学模型和视觉预测训练。即使动作执行有误,其中蕴含的物理规律(如物体掉落、碰撞)仍是可靠的。模型通过动力学分支从这些数据中提取有效信息。实验表明,加入30%的低质量轨迹后,模型任务成功率提升了10%。
- 无动作标签的纯视频:主要为人类第一视角视频。这些数据被用于视觉预测任务,使模型能够在没有动作监督的情况下,通过观察学习物理世界的自然演变先验。
这一策略带来了根本性改变:低质量数据不再是废料,无标注视频也能直接贡献于模型训练。
正是这种科学的数据分工机制,使得具身智能的数据规模得以有效扩展,为通用机器人在零售拣选、工业搬运和家庭服务等场景的大规模商业部署奠定了逻辑基础。
融合之路:VLA与世界模型的统一
拥有海量数据后,下一个问题是采用何种模型架构进行消化。
过去几年,主流答案是类似π 0.7所代表的视觉语言动作模型:接收图像和指令,直接输出动作,链路简洁,响应迅速。但其本质是基于海量数据的模式匹配,缺乏深层的物理常识理解。一旦遇到训练数据未覆盖的物理边界情况,如重心突变或摩擦力变化,性能极易崩溃。
另一条路径是世界模型。它不急于输出动作,而是先在内部进行预测:如果执行某个动作,世界状态将如何变化?然而,多数世界模型侧重于像素级视频生成,物理动力学并非其学习重点。
LDA-1B的思路是打破选择困境,在隐空间进行深度融合。它引入了统一世界模型与动作模型的WAM框架。虽然这一方向如今已成为热点,但银河通用早在2025年3月发表的论文中,已首次对WAM概念进行了结构化定义。
LDA-1B正是这一前瞻路线的延伸,它使模型在统一框架下同步学习四种核心能力:策略学习、前向动力学、逆向动力学、视觉预测。
其命名揭示了核心理念——隐式动力学动作模型:在隐空间中建模世界状态变化,并同步输出可执行的动作策略。
一体化架构:四重能力的协同
在具体实现上,LDA-1B如何整合这四种能力?关键在于三个层面的统一。
第一,统一任务形式
在LDA-1B中,策略学习、前向动力学、逆向动力学与视觉预测被统一为同一种形式:预测未来状态 + 预测未来动作。
为实现单网络多任务,模型引入了“任务嵌入”和“寄存器标记”机制。通过激活不同的任务嵌入,模型可在四种模式间灵活切换。例如,在执行“策略控制”时,使用一个视觉寄存器标记占位,模型专注于动作推演;进行“视觉预测”时则反之。
这意味着,模型不再僵硬地区分“控制”与“建模”。通过巧妙的标记切换,所有任务被转化为同一类“填空题”的变体,在同一套网络底层中流畅执行。
第二,统一表征空间
统一任务形式后,下一个问题是在何种空间中进行统一?LDA-1B的选择是:放弃像素级表示,采用DINO特征隐空间。
传统的像素级模型或基于VAE重构的隐空间,容易将物体几何、外观和动态变化混杂在一起,导致模型将大量算力浪费在预测无关的背景变化上,大规模训练效率低下。
DINO特征的优势在于:对杂乱背景不敏感,但对物体的语义和空间几何结构极度敏感。这使得模型在推演物理规律时,能够聚焦于“物体的交互与状态变化”,而非表面外观。
换言之,LDA-1B并非简单地“观看世界”,而是在“理解结构化的世界”。这一步是其能够有效实现规模扩展的根本前提。
第三,统一模型架构
在统一任务和表征之后,最后一步是选择模型架构。LDA-1B采用了多模态扩散变换器。该架构同时处理两条信息流:动作序列和未来视觉状态,通过共享的注意力机制让两者相互影响。
核心在于:动作和视觉的预测路径是分离的,但它们的“推理过程”是共享的。这带来一个关键效果:模型在预测动作时,会参考“未来世界将如何变化”;在预测世界状态时,也会考虑“动作将产生何种影响”。其本质是将物理因果关系嵌入了注意力结构之中。
三步统一——任务形式、表征空间、模型架构——使得模型能够在同一框架内,同步掌握“如何行动”与“世界如何变化”。至此,它真正拥有了一个统一的“大脑”:既能成为敏锐的行动者,也能化身精准的预测者。
性能验证:实验数据与结果
在实验部分,LDA-1B从多个维度展示了一体化架构带来的优势。
得益于结构化隐空间与一体化设计,LDA-1B在任务成功率和泛化能力上,均以显著优势超越了包括大参数模型GR00T、π 0.5在内的现有方案。
团队进行了一项消融实验:将LDA-1B中的DINO隐空间替换为传统的VAE像素重构空间,其余设置保持不变。结果模型成功率从55.4%骤降至20.0%。这表明DINO隐空间并非锦上添花,而是实现具身智能规模扩展定律的必要前提。
落地应用:从工厂到家庭
在真实世界部署中,LDA-1B所展现出的适应性与“物理直觉”,才是其最引人注目的特质。演示视频清晰揭示了该模型如何突破传统具身智能的瓶颈,解决实际商业落地的关键痛点。
面对未出现在预训练数据中的新型Galbot机器人,LDA-1B展现了强大的少样本跨本体泛化能力。这改变了以往机器人硬件更换即需漫长重新训练的困境。
LDA-1B仅需约1小时的后续适应数据,便能快速理解新硬件的动力学特性。这种高效的适配能力,是模型能够从实验室走向零售门店、物流仓库等多元场景的基础。
在典型的长程任务中,机器人需要处理严格的步骤依赖:
接收指令后,机器人必须按顺序完成抓取、转移、摆放与组合等动作,任何一步的抓取或放置失误都会导致任务失败。当用户中途更改指令时,模型能够理解意图变更并实时调整动作序列,自主纠偏以达成新目标。
同时,在高自由度灵巧手操作测试中,面对摩擦力条件复杂的“翻牛排”任务,LDA-1B凭借其对物理常识的深刻理解,实现了极高的成功率。这证明其并非简单的动作模仿,而是真正掌握了接触性任务的物理逻辑。
将一排杯子精确叠放成金字塔结构,每一层的稳定性都依赖于前一层,这对双臂协同与力控提出了极高要求。
传统模型常因单步误差累积导致整体失败,而LDA-1B通过在隐空间进行的动力学推演,能够预测动作的物理后果并进行实时纠偏。
展望
回顾具身智能的发展浪潮,其轨迹与大型语言模型的历史惊人相似。
早期依赖手工规则;随后发现数据规模效应,转向基于海量数据的行为克隆;而当前,纯模仿学习已触及物理常识的天花板。银河通用LDA-1B提供了一条新路径:通过统一模型,高效利用所有异构数据,使其既能进行“深思熟虑”的推演,又能执行“精准果断”的动作,最终像语言模型一样,从海量异构数据中持续学习世界运作规律。
目前,银河通用已将LDA-1B的核心算法与代码体系全面开源,旨在推动行业从封闭优化转向开放共建。更重要的是,这项能力并非孤立存在,它将作为核心的通用数据吞吐与跨本体学习模块,集成到银河通用的全人形通用基础模型——“银河星脑”中。
在未来路线图中,团队明确了几个关键进化方向:首先是尝试视觉表征与隐空间动力学的端到端联合学习,摆脱对固定特征的依赖;其次是引入更丰富的感知模态,并探索如何自动化化不同质量数据在训练中的分工角色。
















