开源国产具身智能模型Wall-OSS-0.5深度测评
Wall-OSS-0.5:国产具身智能VLA大模型的核心特性
Wall-OSS-0.5是自变量机器人(X Square Robot)开源的具身智能大模型,采用视觉-语言-动作(VLA)架构。其最突出的能力是零样本推理——无需针对具体任务进行微调,即可直接部署至物理机器人执行操作。这一能力得益于名为“Gradient-Bridge”的协同训练方法,将动作生成能力注入基础模型骨干网络。实测中,该模型能够完成搬运、分拣等17项真实环境任务,其中4项任务成功率突破80%。

Wall-OSS-0.5的核心功能矩阵
- 零样本机器人操作:预训练检查点可直接加载至物理硬件,无需针对特定任务进行微调即可执行抓取、分类、整理等操作。预训练完成即具备部署能力。
- 多形态统一适配:单个预训练检查点可适配20余种机器人形态,涵盖桌面双臂、移动操作等类型。传统方案需为每种硬件单独训练模型,此设计彻底打破了这一限制。
- 三目标协同训练:将离散动作预测、多模态预测、连续流匹配三个优化目标联合训练,形成“梯度桥接”效应。动作学习与视觉语言理解相互促进而非干扰。
- 混合专家架构(MoT):视觉-语言令牌经VL Expert路由处理,连续动作计算由Action Expert独立负责,两者通过联合注意力机制实现端到端梯度流动,语言理解与动作生成并行不悖。
- 视觉语言能力保留:动作训练不会削弱基础VLM能力,实体定位能力反而提升21.8个百分点,通用视觉-语言理解与推理能力完整保留。
- 高效微调适配:在LeRobot数据集上进行微调后,15项真实机器人任务的平均完成进度达60.5%,较同类模型π0.5高出17.5个百分点。
- 强泛化与长程执行:对3项从未接触过的任务(如变形物体操作)仍保持高完成度。同时支持绳索收紧、抹布折叠、果篮整理等多阶段连续操作。
Wall-OSS-0.5的技术原理详解
- 4B参数VLA架构:以30亿参数的Qwen2.5-VL视觉语言模型为骨干,结合动作生成组件,总参数量达40亿。视觉感知、语言理解、机器人动作生成实现端到端统一。
- 混合专家路由(MoT):视觉-语言令牌由VL Expert路由处理,连续动作计算由Action Expert独立承担。两者通过联合注意力机制实现端到端梯度流动,避免动作训练干扰语言理解。
- 梯度桥接协同训练:将离散动作预测、多模态预测、连续流匹配三个互补优化目标联合训练,形成“梯度桥接”。动作策略学习与视觉语言预训练知识相互增强而非冲突。
- 连续流匹配动作生成:采用Flow Matching技术对连续动作空间建模,相比传统离散化或回归方法,能生成更平滑、更高维的机器人控制信号。
- 预训练即部署设计:通过大规模异构数据预训练,模型在预训练阶段即习得通用物理操作先验,检查点可直接用于真实机器人零样本推理,无需任务特定微调。
- 大规模异构训练数据:覆盖20余种机器人形态,每轮训练包含超100万条真实机器人轨迹。同时融合9000万条多模态语料(含1200万实体桥接样本),采样策略约60%自采数据、40%开源数据,任务平衡性优良。
- 联合注意力与端到端优化:VL Expert与Action Expert共享注意力计算图,语言指令、视觉场景、动作输出在特征层面深度耦合,梯度可跨模态双向传播。
- 能力解耦保持机制:三目标协同加专家分离设计,确保动作训练不侵蚀基础VLM能力。实体定位能力提升21.8个百分点,通用视觉-语言理解与推理能力完整保留。
Wall-OSS-0.5的部署与使用流程
- 环境准备:创建Python 3.10的conda环境,安装PyTorch等基础依赖。务必安装Flash Attention 2.7.4及以上版本以加速推理。
- 安装LeRobot库:克隆Hugging Face上的LeRobot仓库,切换至指定兼容版本,执行
pip install -e .完成安装。 - 安装Wall-X工具链:克隆
wall-x开源仓库,运行git submodule update --init --recursive拉取子模块,执行安装命令完成工具链部署。 - 下载预训练权重:从Hugging Face的
x-square-robot/wall-oss-0.5下载官方发布的预训练模型检查点。 - 配置机器人参数:根据目标机器人类型(桌面双臂、移动操作等)设置自由度(DOF)配置、模型路径、数据路径及训练超参数。
- 执行微调(可选):若需针对特定任务优化,可在LeRobot格式数据集上运行微调脚本,例如
bash ./workspace/lerobot_example/run.sh,以提升任务表现。 - 部署至真实硬件:加载预训练或微调后检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。
Wall-OSS-0.5的核心竞争优势
- 开箱即用:传统VLA模型必须先微调才能部署,而此模型的预训练检查点直接生成可执行的机器人策略。
- 高效适配:在15项真实机器人任务上微调后,平均完成进度达60.5%,较π0.5(43.0%)高出17.5个百分点。
- 强泛化能力:对3项未见任务(如变形物体操作)保持高完成度,绳索收紧任务成功率达82%。
- 视觉语言能力保持:动作训练不侵蚀基础VLM能力,实体定位能力提升21.8个百分点,通用VL能力完整保留。
- 数据规模领先:覆盖20余种机器人形态,每轮100万+轨迹,9000万多模态样本。
Wall-OSS-0.5的项目资源
- 项目地址:https://x2robot.com/oss#resources
- Github仓库:https://github.com/X-Square-Robot/wall-x
- 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
Wall-OSS-0.5与同类竞品的对比分析
以下表格展示了关键维度的差异:
| 对比维度 | Wall-OSS-0.5 | π0.5 | OpenVLA |
|---|---|---|---|
| 开发机构 | 自变量机器人(X Square Robot) | Physical Intelligence(PI) | Stanford等学术机构 |
| 参数规模 | 40亿(3B Qwen2.5-VL骨干) | 未公开(基于π0架构扩展) | 70亿(LLaMA 2-7B骨干) |
| 核心架构 | MoT混合专家+梯度桥接协同训练 | Transformer分层推理+动作专家 | Prismatic VLM(SigLIP + DINOv2 + LLaMA 2) |
| 动作生成方式 | 离散token与连续流匹配协同优化 | 高层离散token自回归+低层流匹配去噪 | 将动作视为语言模型词汇表中的离散token预测 |
| 训练数据规模 | 20+种机器人形态,每轮100万+轨迹,9000万多模态样本 | 网络数据+跨机器人经验+口头指令多源协同 | Open X-Embodiment数据集97万条轨迹 |
| 零样本部署能力 | 预训练检查点直接部署,17项任务中4项成功率超80% | 预训练后需后训练/微调,不直接支持零样本硬件部署 | 预训练模型需任务特定微调,不支持直接零样本部署 |
| 微调后性能 | 15项真实任务平均完成进度60.5%,领先π0.5达17.5个百分点 | 真实家庭环境任务成功率60%-88%,复杂指令遵循率高 | WidowX / Google Robot多任务成功率领先RT-2-X 16.5% |
| 开源程度 | 完全开源(权重、训练代码、配方、消融实验) | 研究发布,部分技术细节公开 | 完全开源(模型权重、代码、LoRA/量化微调方案) |
| 核心创新点 | 梯度桥接实现预训练即部署,动作与VL能力协同增强不互损 | 开放世界泛化与层次化推理(高层语义规划+低层动作执行) | 首个全面开源的通用VLA,验证VLM直接微调生成动作的可行性 |
| VLM能力保持 | 实体定位提升21.8%,通用VL理解与推理能力完整保留 | 依赖网络数据维持语义理解,动作训练后需专门保持 | 基于预训练VLM微调,语言能力基线较高 |
Wall-OSS-0.5的典型应用场景
- 家庭服务:积木排序、水果分类、抽屉整理、戒指堆叠等日常家务操作均可高效完成。
- 柔性物体处理:绳索收紧、抹布折叠、插花等变形物体操作任务同样胜任。
- 工业装配:精密零件抓取、颜色分类、工具归位等重复性制造流程,可用于提升自动化水平。
- 双臂协作:需要双手配合完成的复杂装配、整理及长程组合动作,此模型能够应对。
- 长程任务执行:多阶段连续操作,如果篮整理等需要持久注意力的多步骤任务。