开源国产具身智能模型Wall-OSS-0.5深度测评

2026-05-29阅读 0热度 0
具身智能

Wall-OSS-0.5:国产具身智能VLA大模型的核心特性

Wall-OSS-0.5是自变量机器人(X Square Robot)开源的具身智能大模型,采用视觉-语言-动作(VLA)架构。其最突出的能力是零样本推理——无需针对具体任务进行微调,即可直接部署至物理机器人执行操作。这一能力得益于名为“Gradient-Bridge”的协同训练方法,将动作生成能力注入基础模型骨干网络。实测中,该模型能够完成搬运、分拣等17项真实环境任务,其中4项任务成功率突破80%。

Wall-OSS-0.5的核心功能矩阵

  • 零样本机器人操作:预训练检查点可直接加载至物理硬件,无需针对特定任务进行微调即可执行抓取、分类、整理等操作。预训练完成即具备部署能力。
  • 多形态统一适配:单个预训练检查点可适配20余种机器人形态,涵盖桌面双臂、移动操作等类型。传统方案需为每种硬件单独训练模型,此设计彻底打破了这一限制。
  • 三目标协同训练:将离散动作预测、多模态预测、连续流匹配三个优化目标联合训练,形成“梯度桥接”效应。动作学习与视觉语言理解相互促进而非干扰。
  • 混合专家架构(MoT):视觉-语言令牌经VL Expert路由处理,连续动作计算由Action Expert独立负责,两者通过联合注意力机制实现端到端梯度流动,语言理解与动作生成并行不悖。
  • 视觉语言能力保留:动作训练不会削弱基础VLM能力,实体定位能力反而提升21.8个百分点,通用视觉-语言理解与推理能力完整保留。
  • 高效微调适配:在LeRobot数据集上进行微调后,15项真实机器人任务的平均完成进度达60.5%,较同类模型π0.5高出17.5个百分点。
  • 强泛化与长程执行:对3项从未接触过的任务(如变形物体操作)仍保持高完成度。同时支持绳索收紧、抹布折叠、果篮整理等多阶段连续操作。

Wall-OSS-0.5的技术原理详解

  • 4B参数VLA架构:以30亿参数的Qwen2.5-VL视觉语言模型为骨干,结合动作生成组件,总参数量达40亿。视觉感知、语言理解、机器人动作生成实现端到端统一。
  • 混合专家路由(MoT):视觉-语言令牌由VL Expert路由处理,连续动作计算由Action Expert独立承担。两者通过联合注意力机制实现端到端梯度流动,避免动作训练干扰语言理解。
  • 梯度桥接协同训练:将离散动作预测、多模态预测、连续流匹配三个互补优化目标联合训练,形成“梯度桥接”。动作策略学习与视觉语言预训练知识相互增强而非冲突。
  • 连续流匹配动作生成:采用Flow Matching技术对连续动作空间建模,相比传统离散化或回归方法,能生成更平滑、更高维的机器人控制信号。
  • 预训练即部署设计:通过大规模异构数据预训练,模型在预训练阶段即习得通用物理操作先验,检查点可直接用于真实机器人零样本推理,无需任务特定微调。
  • 大规模异构训练数据:覆盖20余种机器人形态,每轮训练包含超100万条真实机器人轨迹。同时融合9000万条多模态语料(含1200万实体桥接样本),采样策略约60%自采数据、40%开源数据,任务平衡性优良。
  • 联合注意力与端到端优化:VL Expert与Action Expert共享注意力计算图,语言指令、视觉场景、动作输出在特征层面深度耦合,梯度可跨模态双向传播。
  • 能力解耦保持机制:三目标协同加专家分离设计,确保动作训练不侵蚀基础VLM能力。实体定位能力提升21.8个百分点,通用视觉-语言理解与推理能力完整保留。

Wall-OSS-0.5的部署与使用流程

  • 环境准备:创建Python 3.10的conda环境,安装PyTorch等基础依赖。务必安装Flash Attention 2.7.4及以上版本以加速推理。
  • 安装LeRobot库:克隆Hugging Face上的LeRobot仓库,切换至指定兼容版本,执行pip install -e .完成安装。
  • 安装Wall-X工具链:克隆wall-x开源仓库,运行git submodule update --init --recursive拉取子模块,执行安装命令完成工具链部署。
  • 下载预训练权重:从Hugging Face的x-square-robot/wall-oss-0.5下载官方发布的预训练模型检查点。
  • 配置机器人参数:根据目标机器人类型(桌面双臂、移动操作等)设置自由度(DOF)配置、模型路径、数据路径及训练超参数。
  • 执行微调(可选):若需针对特定任务优化,可在LeRobot格式数据集上运行微调脚本,例如bash ./workspace/lerobot_example/run.sh,以提升任务表现。
  • 部署至真实硬件:加载预训练或微调后检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心竞争优势

  • 开箱即用:传统VLA模型必须先微调才能部署,而此模型的预训练检查点直接生成可执行的机器人策略。
  • 高效适配:在15项真实机器人任务上微调后,平均完成进度达60.5%,较π0.5(43.0%)高出17.5个百分点。
  • 强泛化能力:对3项未见任务(如变形物体操作)保持高完成度,绳索收紧任务成功率达82%。
  • 视觉语言能力保持:动作训练不侵蚀基础VLM能力,实体定位能力提升21.8个百分点,通用VL能力完整保留。
  • 数据规模领先:覆盖20余种机器人形态,每轮100万+轨迹,9000万多模态样本。

Wall-OSS-0.5的项目资源

  • 项目地址:https://x2robot.com/oss#resources
  • Github仓库:https://github.com/X-Square-Robot/wall-x
  • 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5与同类竞品的对比分析

以下表格展示了关键维度的差异:

对比维度Wall-OSS-0.5π0.5OpenVLA
开发机构自变量机器人(X Square Robot)Physical Intelligence(PI)Stanford等学术机构
参数规模40亿(3B Qwen2.5-VL骨干)未公开(基于π0架构扩展)70亿(LLaMA 2-7B骨干)
核心架构MoT混合专家+梯度桥接协同训练Transformer分层推理+动作专家Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)
动作生成方式离散token与连续流匹配协同优化高层离散token自回归+低层流匹配去噪将动作视为语言模型词汇表中的离散token预测
训练数据规模20+种机器人形态,每轮100万+轨迹,9000万多模态样本网络数据+跨机器人经验+口头指令多源协同Open X-Embodiment数据集97万条轨迹
零样本部署能力预训练检查点直接部署,17项任务中4项成功率超80%预训练后需后训练/微调,不直接支持零样本硬件部署预训练模型需任务特定微调,不支持直接零样本部署
微调后性能15项真实任务平均完成进度60.5%,领先π0.5达17.5个百分点真实家庭环境任务成功率60%-88%,复杂指令遵循率高WidowX / Google Robot多任务成功率领先RT-2-X 16.5%
开源程度完全开源(权重、训练代码、配方、消融实验)研究发布,部分技术细节公开完全开源(模型权重、代码、LoRA/量化微调方案)
核心创新点梯度桥接实现预训练即部署,动作与VL能力协同增强不互损开放世界泛化与层次化推理(高层语义规划+低层动作执行)首个全面开源的通用VLA,验证VLM直接微调生成动作的可行性
VLM能力保持实体定位提升21.8%,通用VL理解与推理能力完整保留依赖网络数据维持语义理解,动作训练后需专门保持基于预训练VLM微调,语言能力基线较高

Wall-OSS-0.5的典型应用场景

  • 家庭服务:积木排序、水果分类、抽屉整理、戒指堆叠等日常家务操作均可高效完成。
  • 柔性物体处理:绳索收紧、抹布折叠、插花等变形物体操作任务同样胜任。
  • 工业装配:精密零件抓取、颜色分类、工具归位等重复性制造流程,可用于提升自动化水平。
  • 双臂协作:需要双手配合完成的复杂装配、整理及长程组合动作,此模型能够应对。
  • 长程任务执行:多阶段连续操作,如果篮整理等需要持久注意力的多步骤任务。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策