港科大StarVLA架构开源:乐高式复现成本骤降,性能对标SOTA

2026-06-24阅读 0热度 0
模态 乐高式 大模型 港科大开源starvla

当前,视觉语言动作模型领域正深陷于“碎片化”的泥潭。各研究团队采用的动作解码范式各异,数据管线彼此孤立,评测标准互不统一,导致方法间的横向对比异常困难,研究成果的复现成本居高不下。这种割裂状态严重阻碍了领域内基础模型的迭代与进步。

面对这一核心挑战,开源项目StarVLA并未选择盲目堆砌算力或追逐榜单分数,而是从系统设计的底层逻辑出发,直指行业痛点,提出了一套名为Backbone-Action Head的“乐高式”统一架构。


三重“巴别塔”困境:阻碍VLA发展的核心壁垒

尽管VLA模型被普遍视为实现通用具身智能的关键路径,但当前的研究生态却面临着三重难以逾越的障碍,如同“巴别塔”的诅咒:

架构割裂:从自回归离散Token生成、并行连续回归,到流匹配去噪与双系统推理,不同的动作解码范式背后,是截然不同的代码实现逻辑与接口假设。

管线强耦合:许多现有开源框架更像是为单一方法定制的“孤岛”,其数据预处理、训练循环与评测协议深度绑定,模块复用性极差。

评测标准不一:不同论文往往在互不重叠的基准子集上汇报结果,且预处理与推理细节不透明,使得公平、可信的性能对比几乎无法实现。

StarVLA项目的诞生,正是为了系统性地解决这一碎片化困局。


架构解码:策略中心的“乐高”抽象

StarVLA的核心洞见在于,它将VLM-based与World-Model-based范式视为同一策略框架下的不同变体,其区别仅在于辅助学习信号(L_aux)的差异。

基于这一理念,团队构建了一个高度模块化、接口统一的开源底座。研究人员可以像拼接乐高积木一样,自由组合视觉主干网络与动作解码头,在受控的实验环境中,精确验证单一设计变量的影响。


在系统层面,StarVLA引入了统一的策略中心公式,将多模态历史观测、语言指令与未来动作序列映射到同一计算图中。其训练目标被清晰地分解为三类:

  • Direct VLA:纯粹的动作序列监督学习。
  • VLM-based VLA:引入语言对齐作为辅助目标,例如子任务规划或空间 grounding。
  • WM-based VLA:引入对未来观测的预测作为辅助目标或隐式先验。

在这一抽象框架下,StarVLA实现了双向模块化设计:


  • 可插拔Backbone:支持Qwen3-VL、InternVL等经过指令微调的视觉语言模型,以及Cosmos-Predict2等世界模型。仅需轻量的适配层,即可接入统一的表示契约。
  • 可插拔Action Head:内置4种代表性的动作解码器,共享相同的forward()predict_action()接口。涵盖自回归离散Token生成、轻量MLP并行连续回归、层间Cross-DiT流匹配去噪,以及System 2+System 1双系统推理架构。

所有架构变体共享同一套数据接口、训练循环与评测管线。仅需替换Backbone或Action Head即可完成范式切换,彻底消除了跨方法对比时因实现差异带来的“隐性变量干扰”。

训练范式:从单基准微调走向多模态协同

StarVLA将训练策略抽象为与架构解耦的可复用配置,主要支持三大核心训练范式。


1. 行为克隆监督微调

提供完整的分布式训练脚本,支持全参数微调与子模块冻结。优化器采用多参数组独立学习率、bfloat16混合精度训练与余弦衰减调度策略,确保异构组件的训练稳定性。

2. 多目标协同训练

纯粹的VLA动作微调极易导致视觉语言主干模型发生“灾难性遗忘”。StarVLA内置了双数据流协同机制:交替执行VLA动作预测前向与VLM语言建模前向,动态平衡动作学习与多模态表征保留。实验证明,协同训练能显著提升模型的空间 grounding 能力,并在多个机器人平台上带来4%至10%的成功率增益。


3. 跨形态混合训练

通过声明式配置,用户可在YAML文件中自由声明任意机器人数据集的组合与采样权重,框架会自动处理动作空间对齐与机器人形态标签追踪。这一设计使得复杂的“跨形态预训练”从需要定制脚本,转变为标准化的配置操作。

评测与部署:Server-Client架构打通Sim2Real

为避免评测基准的依赖污染模型运行环境,StarVLA采用了轻量级的WebSocket Server-Client评测抽象:模型侧仅需暴露标准的predict_action()接口并启动策略服务;评测侧则通过独立的Client封装观测字典进行通信。

这意味着,向真实机器人部署迁移时,无需修改任何核心策略代码:只需将仿真环境控制器替换为物理机器人Client,并提供相同格式的相机观测与语言指令,即可实现从仿真到实物的无缝迁移。

目前,项目已集成LIBERO、SimplerEnv、RoboTwin 2.0等七大主流评测基准,并附带完整的基准适配器,自动处理动作反归一化、动作块拆分等后处理逻辑。

性能与效率:极简配置下的强泛化证明

StarVLA刻意避免了复杂的数据工程与在线优化技巧,仅使用公开的视觉语言预训练权重,在标准演示数据集上进行微调,即可达到极具竞争力的性能水平。



更重要的是,其架构展现了出色的泛化鲁棒性。例如,将Qwen3-VL-4B主干替换为参数量更小的Cosmos-Predict2-2B,在LIBERO基准上的平均成功率仍能稳定在95.2%以上。


在跨基准的通用智能体设置中,单个模型联合训练多个数据集后,在RoboCasa上的平均成功率从 Specialist 最优的48.8%提升至57.3%,证明了统一管线下进行All-in-One联合训练的可行性。


在计算效率方面,从单节点扩展到多节点的测试显示,其并行效率能维持在79%到80%之间,为后续的大规模分布式训练提供了清晰的扩展指南。

总结与展望

StarVLA的核心价值,在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。它通过工程化的克制——统一的I/O契约、声明式YAML配置、Server-Client解耦——与深刻的理论洞察,旨在终结VLA研究各自为战的“巴别塔”时代。

对于研究者,它是一个验证新想法即插即用的高效沙盒;对于工程师,它是实现从仿真到实机零代码修改的部署底座;对于整个社区而言,它更像是一件降低复现门槛、推动标准化评测进程的公共产品。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策