港科大StarVLA架构开源：乐高式复现成本骤降，性能对标SOTA

2026-06-24阅读 0热度 0

模态乐高式大模型港科大开源starvla

当前，视觉语言动作模型领域正深陷于“碎片化”的泥潭。各研究团队采用的动作解码范式各异，数据管线彼此孤立，评测标准互不统一，导致方法间的横向对比异常困难，研究成果的复现成本居高不下。这种割裂状态严重阻碍了领域内基础模型的迭代与进步。

面对这一核心挑战，开源项目StarVLA并未选择盲目堆砌算力或追逐榜单分数，而是从系统设计的底层逻辑出发，直指行业痛点，提出了一套名为Backbone-Action Head的“乐高式”统一架构。

三重“巴别塔”困境：阻碍VLA发展的核心壁垒

尽管VLA模型被普遍视为实现通用具身智能的关键路径，但当前的研究生态却面临着三重难以逾越的障碍，如同“巴别塔”的诅咒：

架构割裂：从自回归离散Token生成、并行连续回归，到流匹配去噪与双系统推理，不同的动作解码范式背后，是截然不同的代码实现逻辑与接口假设。

管线强耦合：许多现有开源框架更像是为单一方法定制的“孤岛”，其数据预处理、训练循环与评测协议深度绑定，模块复用性极差。

评测标准不一：不同论文往往在互不重叠的基准子集上汇报结果，且预处理与推理细节不透明，使得公平、可信的性能对比几乎无法实现。

StarVLA项目的诞生，正是为了系统性地解决这一碎片化困局。

架构解码：策略中心的“乐高”抽象

StarVLA的核心洞见在于，它将VLM-based与World-Model-based范式视为同一策略框架下的不同变体，其区别仅在于辅助学习信号（L_aux）的差异。

基于这一理念，团队构建了一个高度模块化、接口统一的开源底座。研究人员可以像拼接乐高积木一样，自由组合视觉主干网络与动作解码头，在受控的实验环境中，精确验证单一设计变量的影响。

在系统层面，StarVLA引入了统一的策略中心公式，将多模态历史观测、语言指令与未来动作序列映射到同一计算图中。其训练目标被清晰地分解为三类：

Direct VLA：纯粹的动作序列监督学习。
VLM-based VLA：引入语言对齐作为辅助目标，例如子任务规划或空间 grounding。
WM-based VLA：引入对未来观测的预测作为辅助目标或隐式先验。

在这一抽象框架下，StarVLA实现了双向模块化设计：

可插拔Backbone：支持Qwen3-VL、InternVL等经过指令微调的视觉语言模型，以及Cosmos-Predict2等世界模型。仅需轻量的适配层，即可接入统一的表示契约。
可插拔Action Head：内置4种代表性的动作解码器，共享相同的forward()与predict_action()接口。涵盖自回归离散Token生成、轻量MLP并行连续回归、层间Cross-DiT流匹配去噪，以及System 2+System 1双系统推理架构。

所有架构变体共享同一套数据接口、训练循环与评测管线。仅需替换Backbone或Action Head即可完成范式切换，彻底消除了跨方法对比时因实现差异带来的“隐性变量干扰”。

训练范式：从单基准微调走向多模态协同

StarVLA将训练策略抽象为与架构解耦的可复用配置，主要支持三大核心训练范式。

1. 行为克隆监督微调

提供完整的分布式训练脚本，支持全参数微调与子模块冻结。优化器采用多参数组独立学习率、bfloat16混合精度训练与余弦衰减调度策略，确保异构组件的训练稳定性。

2. 多目标协同训练

纯粹的VLA动作微调极易导致视觉语言主干模型发生“灾难性遗忘”。StarVLA内置了双数据流协同机制：交替执行VLA动作预测前向与VLM语言建模前向，动态平衡动作学习与多模态表征保留。实验证明，协同训练能显著提升模型的空间 grounding 能力，并在多个机器人平台上带来4%至10%的成功率增益。

3. 跨形态混合训练

通过声明式配置，用户可在YAML文件中自由声明任意机器人数据集的组合与采样权重，框架会自动处理动作空间对齐与机器人形态标签追踪。这一设计使得复杂的“跨形态预训练”从需要定制脚本，转变为标准化的配置操作。

评测与部署：Server-Client架构打通Sim2Real

为避免评测基准的依赖污染模型运行环境，StarVLA采用了轻量级的WebSocket Server-Client评测抽象：模型侧仅需暴露标准的predict_action()接口并启动策略服务；评测侧则通过独立的Client封装观测字典进行通信。

这意味着，向真实机器人部署迁移时，无需修改任何核心策略代码：只需将仿真环境控制器替换为物理机器人Client，并提供相同格式的相机观测与语言指令，即可实现从仿真到实物的无缝迁移。

目前，项目已集成LIBERO、SimplerEnv、RoboTwin 2.0等七大主流评测基准，并附带完整的基准适配器，自动处理动作反归一化、动作块拆分等后处理逻辑。

性能与效率：极简配置下的强泛化证明

StarVLA刻意避免了复杂的数据工程与在线优化技巧，仅使用公开的视觉语言预训练权重，在标准演示数据集上进行微调，即可达到极具竞争力的性能水平。

更重要的是，其架构展现了出色的泛化鲁棒性。例如，将Qwen3-VL-4B主干替换为参数量更小的Cosmos-Predict2-2B，在LIBERO基准上的平均成功率仍能稳定在95.2%以上。

在跨基准的通用智能体设置中，单个模型联合训练多个数据集后，在RoboCasa上的平均成功率从 Specialist 最优的48.8%提升至57.3%，证明了统一管线下进行All-in-One联合训练的可行性。

在计算效率方面，从单节点扩展到多节点的测试显示，其并行效率能维持在79%到80%之间，为后续的大规模分布式训练提供了清晰的扩展指南。

总结与展望

StarVLA的核心价值，在于为具身智能社区提供了一套可复现、可对比、可组合的基础设施标准。它通过工程化的克制——统一的I/O契约、声明式YAML配置、Server-Client解耦——与深刻的理论洞察，旨在终结VLA研究各自为战的“巴别塔”时代。

对于研究者，它是一个验证新想法即插即用的高效沙盒；对于工程师，它是实现从仿真到实机零代码修改的部署底座；对于整个社区而言，它更像是一件降低复现门槛、推动标准化评测进程的公共产品。