Xiaomi-Robotics-0 – 小米开源的实时视觉语言动作机器人模型

2026-04-28阅读 0热度 0
xiaomi

Xiaomi-Robotics-0快速摘要:实时VLA机器人控制模型与具身智能执行能力

在机器人控制领域,一个能将视觉、语言和动作无缝衔接的模型,无疑是迈向通用具身智能的关键一步。小米集团近期推出的Xiaomi-Robotics-0,正是这样一个Vision-Language-Action(VLA)机器人控制模型。它主打视觉-语言-动作的统一建模与实时推理执行,目标直指复杂的机器人操作、任务规划与具身智能系统部署。

  • 模型名称:Xiaomi-Robotics-0(Vision-Language-Action机器人控制模型)
  • 开发公司:小米集团(Xiaomi Robotics / AI Lab)
  • 发布时间:2026年2月12日(技术报告发布,2026年4月更新Post-training代码)
  • 主要功能:VLA统一建模、机器人动作生成、视觉语言理解、实时控制执行(官方定义为real-time execution VLA model)
  • 使用要求:需GPU推理环境(推荐PyTorch 2.8 + CUDA 12),支持Hugging Face Transformers部署
  • 开源情况:已开源(模型权重、推理代码、评测代码与Post-training pipeline已公开)
  • 适用场景:机器人抓取、双臂操作、家庭服务机器人、工业自动化与仿真环境控制
  • 技术特点:4.7B参数VLM+DiT架构、Flow Matching动作生成、异步实时执行机制
  • 性能数据:LIBERO 98.7%、CALVIN 4.80/4.75、SimplerEnv最高85.5%(据官方benchmark结果)
Xiaomi-Robotics-0 – 小米开源的实时视觉语言动作机器人模型

Xiaomi-Robotics-0的核心优势

  • 统一VLA多模态建模能力:模型基于视觉-语言-动作统一架构,将图像、语言指令与机器人状态融合建模,采用Qwen3-VL-4B-Instruct作为VLM编码器生成KV cache,再由DiT进行动作生成,使输入“Pick up red block”可直接输出控制序列,在LIBERO任务中达到98.7%成功率。
  • 高精度Flow Matching动作生成:采用Diffusion Transformer(DiT)结合Flow Matching损失生成连续action chunk,相比离散动作策略具备更平滑控制能力,在CALVIN benchmark中平均任务长度达到4.80(ABCD-D split),显著提升长序列任务稳定性。
  • 异步实时执行机制:通过Δtc动作前缀与Δtinf推理延迟解耦,实现边执行边推理机制,在机器人执行当前动作chunk时并行生成下一chunk,确保系统持续输出动作流,官方测试表明可实现稳定real-time rollout。
  • 跨实体泛化训练能力:预训练使用约200M机器人轨迹与80M视觉语言数据,通过跨embodiment学习增强泛化能力,使模型可适配不同机器人形态,在SimplerEnv中Visual Matching达到85.5%准确率。
  • 高效部署与推理优化:支持Hugging Face Transformers生态,结合Flash Attention 2与bfloat16推理优化,在消费级GPU上可运行,模型参数量4.7B,在保持精度同时降低推理延迟至可工程部署级别。

Xiaomi-Robotics-0的核心功能

  • 视觉语言指令解析:输入自然语言指令与多视角图像(如base view + wrist view),模型通过VLM编码生成语义KV cache。
  • 机器人动作chunk生成:DiT基于Flow Matching生成连续动作序列。
  • 多视角环境建模:支持多摄像头输入融合,将base camera与wrist camera特征拼接输入模型,实现空间理解。
  • 任务级策略拆解:将高层语言任务拆解为低层动作序列。
  • 实时控制反馈系统:通过proprioceptive state输入实时反馈机器人状态,并动态调整下一动作chunk,使系统在失败情况下自动修正抓取策略。

Xiaomi-Robotics-0的技术原理

  • VLM+DiT双模块架构:采用Qwen3-VL-4B-Instruct作为视觉语言模型编码器,生成KV cache表示语义信息,再通过Diffusion Transformer(DiT)生成动作序列,实现语言到动作的分层映射结构。
  • Flow Matching动作生成机制:使用flow matching损失函数优化连续动作生成,使模型学习从噪声分布到真实动作分布的映射,在机器人控制任务中提升轨迹平滑性与稳定性。
  • 跨模态KV缓存机制:VLM输出的KV cache作为DiT条件输入,使动作生成过程依赖视觉与语言联合特征,而非单一模态,提高复杂任务理解能力。
  • 异步执行时间解耦设计:通过Δtc > Δtinf设计,使当前动作执行与下一动作推理并行进行,避免等待推理造成的控制中断,实现连续机器人动作流。
  • Post-training任务适配机制:采用action prefixing与Λ-shape attention mask,使模型在连续动作chunk之间保持一致性,同时通过随机mask降低动作序列过拟合,提高真实环境适应性。

Xiaomi-Robotics-0与主流模型对比

对比维度 Xiaomi-Robotics-0 Kairos 3.0-4B Spirit-v1.5 UnifoLM-VLA-0
参数规模 4.7B 4B 约3B级 约4B级
核心架构 Qwen3-VL + DiT + Flow Matching VLA Transformer 统一动作生成架构 多模态VLA架构
实时推理能力 异步执行优化 支持实时推理 支持低延迟控制 支持实时rollout
Benchmark表现 LIBERO 98.7% 公开结果较少 具备公开任务成绩 多任务表现较强
训练数据规模 200M轨迹+80M VL 多实体机器人数据 跨任务操作数据 大规模动作数据
开源与部署 完整开源+HF部署 开放权重 研究开源 开放部署框架
典型优势场景 双臂精细操作 泛化任务执行 低延迟控制 复杂长任务规划

从技术路线来看,Xiaomi-Robotics-0的优势主要源于两个关键设计。其一,是4.7B参数的VLM与DiT架构结合Flow Matching动作生成,这套组合拳相比传统的VLA Transformer,在连续动作的平滑性和响应稳定性上表现更佳。其二,是其异步执行机制,这巧妙地解决了推理延迟这个困扰不少VLA模型的实际难题。官方基准测试数据也颇具说服力,LIBERO任务98.7%的成功率,在同级别公开模型中竞争力显著。简单来说,如果把Kairos 3.0-4B看作泛化任务执行者,Spirit-v1.5专注低延迟控制,UnifoLM-VLA-0擅长长任务规划,那么Xiaomi-Robotics-0则更偏向于精细的双臂操作和面向工程部署的场景。

如何使用Xiaomi-Robotics-0

  1. 环境配置与依赖安装:使用PyTorch 2.8.0 + Transformers 4.57.1配置环境,安装Flash Attention 2.8.3以优化推理性能,例如CUDA 12环境下确保bfloat16支持以降低显存占用。
  2. 模型加载与初始化:通过Hugging Face加载Xiaomi-Robotics-0-LIBERO权重,例如调用AutoModel.from_pretrained并启用flash_attention_2实现高效推理。
  3. 多模态输入构建:输入多视角图像(base view + wrist view)与语言指令,例如“Pick up red block”,并将proprioceptive state作为机器人状态输入进行融合。
  4. 动作生成与执行:模型输出action chunk(如机械臂位移+夹爪状态),通过processor.decode_action转换为控制信号并发送至机器人执行系统。
  5. 异步执行优化:配置Δtc > Δtinf参数,使机器人在执行当前动作时并行生成下一动作chunk,实现连续控制流优化。

Xiaomi-Robotics-0的局限性

  • 真实机器人数据依赖较高:模型依赖约200M robot timesteps数据训练,在真实环境泛化能力仍受数据覆盖范围影响,复杂未见场景可能出现动作偏差。
  • 计算资源需求较高:4.7B参数模型在实时推理时仍需GPU支持,消费级设备虽可运行但在高并发任务下可能出现延迟上升问题。
  • 真实场景验证有限:虽然在LIBERO与CALVIN中表现优异,但工业级大规模部署验证数据仍有限,官方主要提供仿真与实验室机器人测试结果。

Xiaomi-Robotics-0相关资源

  • 项目官网:https://xiaomi-robotics-0.github.io/
  • GitHub仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • HuggingFace模型库:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
  • 技术论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的典型应用场景

  • 家庭服务机器人:输入“整理客厅”指令,系统输出抓取与移动动作序列,实现自动清洁与物品整理,提高家庭自动化效率。
  • 工业自动化操作:输入“分拣零件任务”,机器人通过视觉识别与路径规划完成抓取与分类,提高生产线效率。
  • 仓储物流机器人:输入货物搬运任务,模型生成路径与抓取动作,实现自动化仓储分拣与搬运流程。
  • 双臂机器人操作:输入复杂装配任务如Lego拆解,系统协调双机械臂执行精细操作,提高复杂装配能力。
  • 科研与仿真训练:在CALVIN等仿真环境中训练多步骤任务策略,用于具身智能算法研究与验证。

Xiaomi-Robotics-0常见问题

Xiaomi-Robotics-0怎么用?

通过Hugging Face加载预训练权重并配置Transformers环境使用,输入多视角图像与语言指令后生成机器人动作chunk执行,适用于机器人控制开发与仿真实验场景。

Xiaomi-Robotics-0如何计费?

目前模型已开源,使用本身不涉及API计费,但运行成本来自GPU算力消耗,部署在消费级显卡或服务器上均需自行承担计算资源成本。

Xiaomi-Robotics-0和Kairos 3.0-4B哪个好?

据公开benchmark数据,Xiaomi-Robotics-0在LIBERO达到98.7%成功率,并具备异步实时执行优势,更适合精细机器人操作;Kairos 3.0-4B偏泛化任务执行,两者定位不同。

Xiaomi-Robotics-0支持实时控制吗?

支持异步实时执行机制,通过Δtc与Δtinf设计实现边执行边推理,保证动作连续输出,适用于机器人实时控制任务但依赖硬件性能。

Xiaomi-Robotics-0有免费使用方式吗?

模型已开源,可通过Hugging Face或GitHub免费获取代码与权重,但实际运行需要GPU资源,因此成本取决于本地或云端算力使用情况。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策