港科大StarVLA架构开源:乐高式复现成本骤降,性能对标SOTA
当前,视觉语言动作模型领域正深陷于“碎片化”的泥潭。各研究团队采用的动作解码范式各异,数据管线彼此孤立,评测标准互不统一,导致方法间的横向对比异常困难,研究成果的复现成本居高不下。这种割裂状态严重阻碍了领域内基础模型的迭代与进步。
面对这一核心挑战,开源项目StarVLA并未选择盲目堆砌算力或追逐榜单分数,而是从系统设计的底层逻辑出发,直指行业痛点,提出了一套名为Backbone-Action Head的“乐高式”统一架构。
三重“巴别塔”困境:阻碍VLA发展的核心壁垒
尽管VLA模型被普遍视为实现通用具身智能的关键路径,但当前的研究生态却面临着三重难以逾越的障碍,如同“巴别塔”的诅咒:
架构割裂:从自回归离散Token生成、并行连续回归,到流匹配去噪与双系统推理,不同的动作解码范式背后,是截然不同的代码实现逻辑与接口假设。
管线强耦合:许多现有开源框架更像是为单一方法定制的“孤岛”,其数据预处理、训练循环与评测协议深度绑定,模块复用性极差。
评测标准不一:不同论文往往在互不重叠的基准子集上汇报结果,且预处理与推理细节不透明,使得公平、可信的性能对比几乎无法实现。
StarVLA项目的诞生,正是为了系统性地解决这一碎片化困局。
架构解码:策略中心的“乐高”抽象
StarVLA的核心洞见在于,它将VLM-based与World-Model-based范式视为同一策略框架下的不同变体,其区别仅在于辅助学习信号(L_aux)的差异。
基于这一理念,团队构建了一个高度模块化、接口统一的开源底座。研究人员可以像拼接乐高积木一样,自由组合视觉主干网络与动作解码头,在受控的实验环境中,精确验证单一设计变量的影响。
在系统层面,StarVLA引入了统一的策略中心公式,将多模态历史观测、语言指令与未来动作序列映射到同一计算图中。其训练目标被清晰地分解为三类:
- Direct VLA:纯粹的动作序列监督学习。
- VLM-based VLA:引入语言对齐作为辅助目标,例如子任务规划或空间 grounding。
- WM-based VLA:引入对未来观测的预测作为辅助目标或隐式先验。
在这一抽象框架下,StarVLA实现了双向模块化设计:
- 可插拔Backbone:支持Qwen3-VL、InternVL等经过指令微调的视觉语言模型,以及Cosmos-Predict2等世界模型。仅需轻量的适配层,即可接入统一的表示契约。
- 可插拔Action Head:内置4种代表性的动作解码器,共享相同的
forward()与predict_action()接口。涵盖自回归离散Token生成、轻量MLP并行连续回归、层间Cross-DiT流匹配去噪,以及System 2+System 1双系统推理架构。
所有架构变体共享同一套数据接口、训练循环与评测管线。仅需替换Backbone或Action Head即可完成范式切换,彻底消除了跨方法对比时因实现差异带来的“隐性变量干扰”。
训练范式:从单基准微调走向多模态协同
StarVLA将训练策略抽象为与架构解耦的可复用配置,主要支持三大核心训练范式。
1. 行为克隆监督微调
提供完整的分布式训练脚本,支持全参数微调与子模块冻结。优化器采用多参数组独立学习率、bfloat16混合精度训练与余弦衰减调度策略,确保异构组件的训练稳定性。
2. 多目标协同训练
纯粹的VLA动作微调极易导致视觉语言主干模型发生“灾难性遗忘”。StarVLA内置了双数据流协同机制:交替执行VLA动作预测前向与VLM语言建模前向,动态平衡动作学习与多模态表征保留。实验证明,协同训练能显著提升模型的空间 grounding 能力,并在多个机器人平台上带来4%至10%的成功率增益。
3. 跨形态混合训练
通过声明式配置,用户可在YAML文件中自由声明任意机器人数据集的组合与采样权重,框架会自动处理动作空间对齐与机器人形态标签追踪。这一设计使得复杂的“跨形态预训练”从需要定制脚本,转变为标准化的配置操作。
评测与部署:Server-Client架构打通Sim2Real
为避免评测基准的依赖污染模型运行环境,StarVLA采用了轻量级的WebSocket Server-Client评测抽象:模型侧仅需暴露标准的predict_action()接口并启动策略服务;评测侧则通过独立的Client封装观测字典进行通信。
这意味着,向真实机器人部署迁移时,无需修改任何核心策略代码:只需将仿真环境控制器替换为物理机器人Client,并提供相同格式的相机观测与语言指令,即可实现从仿真到实物的无缝迁移。
目前,项目已集成LIBERO、SimplerEnv、RoboTwin 2.0等七大主流评测基准,并附带完整的基准适配器,自动处理动作反归一化、动作块拆分等后处理逻辑。
性能与效率:极简配置下的强泛化证明
StarVLA刻意避免了复杂的数据工程与在线优化技巧,仅使用公开的视觉语言预训练权重,在标准演示数据集上进行微调,即可达到极具竞争力的性能水平。
更重要的是,其架构展现了出色的泛化鲁棒性。例如,将Qwen3-VL-4B主干替换为参数量更小的Cosmos-Predict2-2B,在LIBERO基准上的平均成功率仍能稳定在95.2%以上。
在跨基准的通用智能体设置中,单个模型联合训练多个数据集后,在RoboCasa上的平均成功率从 Specialist 最优的48.8%提升至57.3%,证明了统一管线下进行All-in-One联合训练的可行性。
在计算效率方面,从单节点扩展到多节点的测试显示,其并行效率能维持在79%到80%之间,为后续的大规模分布式训练提供了清晰的扩展指南。
总结与展望
StarVLA的核心价值,在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。它通过工程化的克制——统一的I/O契约、声明式YAML配置、Server-Client解耦——与深刻的理论洞察,旨在终结VLA研究各自为战的“巴别塔”时代。
对于研究者,它是一个验证新想法即插即用的高效沙盒;对于工程师,它是实现从仿真到实机零代码修改的部署底座;对于整个社区而言,它更像是一件降低复现门槛、推动标准化评测进程的公共产品。









