Xiaomi-Robotics-0 – 小米开源的实时视觉语言动作机器人模型

2026-04-28阅读 0热度 0

xiaomi

Xiaomi-Robotics-0快速摘要：实时VLA机器人控制模型与具身智能执行能力

在机器人控制领域，一个能将视觉、语言和动作无缝衔接的模型，无疑是迈向通用具身智能的关键一步。小米集团近期推出的Xiaomi-Robotics-0，正是这样一个Vision-Language-Action（VLA）机器人控制模型。它主打视觉-语言-动作的统一建模与实时推理执行，目标直指复杂的机器人操作、任务规划与具身智能系统部署。

模型名称：Xiaomi-Robotics-0（Vision-Language-Action机器人控制模型）
开发公司：小米集团（Xiaomi Robotics / AI Lab）
发布时间：2026年2月12日（技术报告发布，2026年4月更新Post-training代码）
主要功能：VLA统一建模、机器人动作生成、视觉语言理解、实时控制执行（官方定义为real-time execution VLA model）
使用要求：需GPU推理环境（推荐PyTorch 2.8 + CUDA 12），支持Hugging Face Transformers部署
开源情况：已开源（模型权重、推理代码、评测代码与Post-training pipeline已公开）
适用场景：机器人抓取、双臂操作、家庭服务机器人、工业自动化与仿真环境控制
技术特点：4.7B参数VLM+DiT架构、Flow Matching动作生成、异步实时执行机制
性能数据：LIBERO 98.7%、CALVIN 4.80/4.75、SimplerEnv最高85.5%（据官方benchmark结果）

Xiaomi-Robotics-0的核心优势

统一VLA多模态建模能力：模型基于视觉-语言-动作统一架构，将图像、语言指令与机器人状态融合建模，采用Qwen3-VL-4B-Instruct作为VLM编码器生成KV cache，再由DiT进行动作生成，使输入“Pick up red block”可直接输出控制序列，在LIBERO任务中达到98.7%成功率。
高精度Flow Matching动作生成：采用Diffusion Transformer（DiT）结合Flow Matching损失生成连续action chunk，相比离散动作策略具备更平滑控制能力，在CALVIN benchmark中平均任务长度达到4.80（ABCD-D split），显著提升长序列任务稳定性。
异步实时执行机制：通过Δtc动作前缀与Δtinf推理延迟解耦，实现边执行边推理机制，在机器人执行当前动作chunk时并行生成下一chunk，确保系统持续输出动作流，官方测试表明可实现稳定real-time rollout。
跨实体泛化训练能力：预训练使用约200M机器人轨迹与80M视觉语言数据，通过跨embodiment学习增强泛化能力，使模型可适配不同机器人形态，在SimplerEnv中Visual Matching达到85.5%准确率。
高效部署与推理优化：支持Hugging Face Transformers生态，结合Flash Attention 2与bfloat16推理优化，在消费级GPU上可运行，模型参数量4.7B，在保持精度同时降低推理延迟至可工程部署级别。

Xiaomi-Robotics-0的核心功能

视觉语言指令解析：输入自然语言指令与多视角图像（如base view + wrist view），模型通过VLM编码生成语义KV cache。
机器人动作chunk生成：DiT基于Flow Matching生成连续动作序列。
多视角环境建模：支持多摄像头输入融合，将base camera与wrist camera特征拼接输入模型，实现空间理解。
任务级策略拆解：将高层语言任务拆解为低层动作序列。
实时控制反馈系统：通过proprioceptive state输入实时反馈机器人状态，并动态调整下一动作chunk，使系统在失败情况下自动修正抓取策略。

Xiaomi-Robotics-0的技术原理

VLM+DiT双模块架构：采用Qwen3-VL-4B-Instruct作为视觉语言模型编码器，生成KV cache表示语义信息，再通过Diffusion Transformer（DiT）生成动作序列，实现语言到动作的分层映射结构。
Flow Matching动作生成机制：使用flow matching损失函数优化连续动作生成，使模型学习从噪声分布到真实动作分布的映射，在机器人控制任务中提升轨迹平滑性与稳定性。
跨模态KV缓存机制：VLM输出的KV cache作为DiT条件输入，使动作生成过程依赖视觉与语言联合特征，而非单一模态，提高复杂任务理解能力。
异步执行时间解耦设计：通过Δtc > Δtinf设计，使当前动作执行与下一动作推理并行进行，避免等待推理造成的控制中断，实现连续机器人动作流。
Post-training任务适配机制：采用action prefixing与Λ-shape attention mask，使模型在连续动作chunk之间保持一致性，同时通过随机mask降低动作序列过拟合，提高真实环境适应性。

Xiaomi-Robotics-0与主流模型对比

对比维度	Xiaomi-Robotics-0	Kairos 3.0-4B	Spirit-v1.5	UnifoLM-VLA-0
参数规模	4.7B	4B	约3B级	约4B级
核心架构	Qwen3-VL + DiT + Flow Matching	VLA Transformer	统一动作生成架构	多模态VLA架构
实时推理能力	异步执行优化	支持实时推理	支持低延迟控制	支持实时rollout
Benchmark表现	LIBERO 98.7%	公开结果较少	具备公开任务成绩	多任务表现较强
训练数据规模	200M轨迹+80M VL	多实体机器人数据	跨任务操作数据	大规模动作数据
开源与部署	完整开源+HF部署	开放权重	研究开源	开放部署框架
典型优势场景	双臂精细操作	泛化任务执行	低延迟控制	复杂长任务规划

从技术路线来看，Xiaomi-Robotics-0的优势主要源于两个关键设计。其一，是4.7B参数的VLM与DiT架构结合Flow Matching动作生成，这套组合拳相比传统的VLA Transformer，在连续动作的平滑性和响应稳定性上表现更佳。其二，是其异步执行机制，这巧妙地解决了推理延迟这个困扰不少VLA模型的实际难题。官方基准测试数据也颇具说服力，LIBERO任务98.7%的成功率，在同级别公开模型中竞争力显著。简单来说，如果把Kairos 3.0-4B看作泛化任务执行者，Spirit-v1.5专注低延迟控制，UnifoLM-VLA-0擅长长任务规划，那么Xiaomi-Robotics-0则更偏向于精细的双臂操作和面向工程部署的场景。

如何使用Xiaomi-Robotics-0

环境配置与依赖安装：使用PyTorch 2.8.0 + Transformers 4.57.1配置环境，安装Flash Attention 2.8.3以优化推理性能，例如CUDA 12环境下确保bfloat16支持以降低显存占用。
模型加载与初始化：通过Hugging Face加载Xiaomi-Robotics-0-LIBERO权重，例如调用AutoModel.from_pretrained并启用flash_attention_2实现高效推理。
多模态输入构建：输入多视角图像（base view + wrist view）与语言指令，例如“Pick up red block”，并将proprioceptive state作为机器人状态输入进行融合。
动作生成与执行：模型输出action chunk（如机械臂位移+夹爪状态），通过processor.decode_action转换为控制信号并发送至机器人执行系统。
异步执行优化：配置Δtc > Δtinf参数，使机器人在执行当前动作时并行生成下一动作chunk，实现连续控制流优化。

Xiaomi-Robotics-0的局限性

真实机器人数据依赖较高：模型依赖约200M robot timesteps数据训练，在真实环境泛化能力仍受数据覆盖范围影响，复杂未见场景可能出现动作偏差。
计算资源需求较高：4.7B参数模型在实时推理时仍需GPU支持，消费级设备虽可运行但在高并发任务下可能出现延迟上升问题。
真实场景验证有限：虽然在LIBERO与CALVIN中表现优异，但工业级大规模部署验证数据仍有限，官方主要提供仿真与实验室机器人测试结果。

Xiaomi-Robotics-0相关资源

项目官网：https://xiaomi-robotics-0.github.io/
GitHub仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型库：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
技术论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的典型应用场景

家庭服务机器人：输入“整理客厅”指令，系统输出抓取与移动动作序列，实现自动清洁与物品整理，提高家庭自动化效率。
工业自动化操作：输入“分拣零件任务”，机器人通过视觉识别与路径规划完成抓取与分类，提高生产线效率。
仓储物流机器人：输入货物搬运任务，模型生成路径与抓取动作，实现自动化仓储分拣与搬运流程。
双臂机器人操作：输入复杂装配任务如Lego拆解，系统协调双机械臂执行精细操作，提高复杂装配能力。
科研与仿真训练：在CALVIN等仿真环境中训练多步骤任务策略，用于具身智能算法研究与验证。

Xiaomi-Robotics-0常见问题

Xiaomi-Robotics-0怎么用？

通过Hugging Face加载预训练权重并配置Transformers环境使用，输入多视角图像与语言指令后生成机器人动作chunk执行，适用于机器人控制开发与仿真实验场景。

Xiaomi-Robotics-0如何计费？

目前模型已开源，使用本身不涉及API计费，但运行成本来自GPU算力消耗，部署在消费级显卡或服务器上均需自行承担计算资源成本。

Xiaomi-Robotics-0和Kairos 3.0-4B哪个好？

据公开benchmark数据，Xiaomi-Robotics-0在LIBERO达到98.7%成功率，并具备异步实时执行优势，更适合精细机器人操作；Kairos 3.0-4B偏泛化任务执行，两者定位不同。

Xiaomi-Robotics-0支持实时控制吗？

支持异步实时执行机制，通过Δtc与Δtinf设计实现边执行边推理，保证动作连续输出，适用于机器人实时控制任务但依赖硬件性能。

Xiaomi-Robotics-0有免费使用方式吗？

模型已开源，可通过Hugging Face或GitHub免费获取代码与权重，但实际运行需要GPU资源，因此成本取决于本地或云端算力使用情况。