小米全能管家AI机器人深度测评：开启能说会动的智能时代

2026-05-13阅读 0热度 0

机器人

当ChatGPT的对话能力还在刷新我们的认知时，小米机器人团队的目光已经投向了更远的地方：他们希望机器人不仅能听懂我们说什么，更能看懂我们身处的世界，并真正动手为我们解决问题。2026年2月，一项编号为arXiv:2602.12684v1的研究论文正式发布，标志着我们向科幻电影中那种全能型智能助手，迈出了坚实的一大步。

想象这样一个场景：你对机器人说“帮我整理一下桌面”，它不仅能听懂指令，还能通过摄像头“看到”桌上散乱的物品，然后伸出机械臂，有条不紊地将东西归类、摆放整齐。这正是小米研究团队致力于实现的愿景。他们开发的“Xiaomi-Robotics-0”系统，相当于为机器人装备了一个超级大脑，使其同时拥有了“眼睛”（视觉）、“耳朵”（语言）和“手臂”（动作）的完整能力闭环。

这项研究的核心突破，在于解决了一个长期困扰机器人领域的难题：如何让机器人在真实、动态的环境中，既快速又流畅地执行复杂指令。以往的方案往往顾此失彼——要么动作精准但僵硬迟缓，要么反应快但能力单一。小米的新系统通过一套精巧的设计，让机器人的动作能像熟练工匠一样，既连贯又精准。

一、让机器人拥有“全能大脑”的秘密

理解这项研究的精妙之处，不妨做个对比。传统机器人更像流水线上的熟练工，动作精确但只能重复固定程序，环境一变就束手无策。而Xiaomi-Robotics-0的目标，是培养一个“能文能武”的全能型选手：既能理解复杂抽象的要求，又能灵活应对现场的各种状况。

其核心是一个名为“视觉-语言-动作模型”的架构。听起来复杂，实则模拟了人类处理任务的自然流程：通过摄像头观察环境，通过麦克风接收指令，经过“大脑”分析规划，最终驱动身体执行动作。

实现这一切的第一步，是海量且多样的数据准备。团队收集了两大类训练素材：一是约200万个时间步的机器人操作轨迹数据，涵盖了各种抓取、移动、操作等动作；二是超过8000万样本的视觉语言数据，包括图像描述、视觉问答、定位等任务。这种“双轨制”训练策略非常关键——操作数据教会系统“如何动手”，而视觉语言数据则赋予其“理解与沟通”的能力。

在视觉语言能力的构建上，团队着重培养了四个维度：视觉定位（指出物体在哪）、视觉问答（回答关于图像的问题）、图像描述（用语言描述场景）以及具身推理规划（根据所见规划行动）。这使得机器人不仅能“看见”，更能“看懂”并“想明白”。

为了攻克精细操作，团队还专门采集了两个高难度任务的数据：乐高拆装（338小时）和毛巾折叠（400小时）。前者考验双手协调与力度控制，后者则要应对柔软材料的不确定性，为机器人学习复杂物理交互提供了宝贵样本。

二、两阶段训练：从“理论学习”到“实践操练”

整个训练过程如同培养一位顶尖工匠，分为两个循序渐进、重点分明的阶段。

第一阶段可称为“通识教育与基础技能培养”。研究团队采用了一种创新方法，让视觉语言模型同时学习两件事：一是处理纯粹的图文理解任务，二是根据观察预测下一步动作。这就好比让学徒既学习理论图纸，又同步练习基础手法。

为了避免模型在学习新技能（动作）时遗忘旧知识（语言理解），团队采用了“混合训练”策略，以1:6的比例交替输入视觉语言数据和机器人轨迹数据。这样既保证了语言能力的“不退步”，又让动作技能得到充分锻炼。

在动作生成上，系统采用的是一种“多方案择优”的策略。它不是直接输出单一动作序列，而是同时生成多个候选方案并进行评分，最终执行最优解。这就像经验丰富的工匠在动手前，脑海中会快速比对几种可行方案。

第二阶段则转向“专业技能的精雕细琢”。此时，第一阶段训练好的视觉语言理解部分被“冻结”，团队专注于训练一个基于扩散变换器的动作生成器。该生成器利用“流匹配”技术，能产生极其平滑自然的动作轨迹。

扩散变换器的工作方式颇具艺术感：它从一片随机“噪声”开始，逐步“雕琢”出精确的动作路径，如同雕塑家将粗糙的石坯变为精美的艺术品。这种方法生成的动作不仅准确，而且避免了传统方法常有的生硬和卡顿感。

为了让动作生成器能充分利用上游的“理解”结果，团队设计了一个巧妙的“条件注入”机制。生成器在规划动作时，不仅要考虑当前看到的画面和听到的指令，还要参考机器人自身的本体感觉状态（如关节角度、受力反馈等），确保每一个动作都精准且符合物理约束。

三、破解实时执行难题：让机器人动作“行云流水”

传统机器人系统常陷入一个两难境地：思考时需要时间，但执行动作又不能中断，否则就会显得一顿一顿，极不自然。小米团队为这个经典难题提供了一个优雅的解决方案——“异步执行”策略。

这相当于让机器人学会了“一心二用”。当机械臂正在执行当前一组动作时，系统的“大脑”已经在后台为下一组动作做规划了。当前一组动作接近尾声，新的动作方案也已准备就绪，从而实现无缝衔接，整个过程如行云流水。

当然，异步执行带来了新挑战：如何保证前后动作的连贯性？团队的方案是在规划新动作时，将前序动作末尾的一小段作为“起始条件”纳入考量。就像舞蹈演员，每一个起势都承接了上一个动作的余韵，从而保证整套动作流畅自然。

但简单地“参考前序动作”可能导致系统“偷懒”——过度依赖已有的动作模式，而非根据实时环境进行独立思考。为此，团队引入了一个巧妙的“Λ形注意力掩码”机制。它好比给机器人戴上了一副“选择性眼罩”：允许其瞥见前序动作的一小部分以确保连贯，但强制其将主要注意力集中在当前的视觉观察和语言指令上。这样既保证了动作流畅，又确保了决策的实时性与针对性。

在实际部署中，系统的时间同步机制设计得非常精妙。它每次生成一个包含多个时间步的“动作块”，但只执行其中一部分，同时启动对下一个“动作块”的规划。当下一个块规划完成时，恰能接替执行，如同精密的流水线，毫无停顿。整个推理过程在消费级GPU（如NVIDIA GeForce RTX 4090）上仅需80毫秒，意味着机器人能以超过每秒10次的频率更新动作计划，足以支撑大多数日常任务的实时、流畅执行。

四、真枪实弹的考验：从仿真到现实的全面测试

为了全面评估Xiaomi-Robotics-0的能力，研究团队设计了一套从虚拟仿真到真实物理世界的多层次测试体系。

在仿真基准测试中，系统表现卓越。在LIBERO基准上达到了98.7%的平均成功率，意味着在常规任务中几乎不会失手。在更具挑战性的CALVIN基准上（要求连续完成5个关联任务），系统平均能完成4.75到4.80个任务，显著优于其他对比方法，展示了其处理多步骤工作流的能力。在更接近真实世界的SimplerEnv测试中，系统在标准环境（视觉匹配）下成功率为85.5%，在环境发生变化（视觉变化）的困难模式下也达到了74.7%的成功率，证明了其良好的适应与泛化能力。

然而，真正的试金石是物理世界的实际操作。团队选择了两个极具代表性的任务：乐高积木拆装分类和毛巾折叠。前者是刚性物体精细操作的典型，需要双手协调、力度控制与精准定位；后者则代表了柔性物体处理的难点，布料形态多变，抓取与折叠需要应对持续的不确定性。

测试结果令人振奋。在乐高任务中，系统不仅成功率高，其“吞吐量”（单位时间内完成的任务量）也明显超越基线方法。在毛巾折叠任务中，系统达到了每分钟折叠1.2条毛巾的速度，已接近熟练工人的效率水平。

更值得一提的是系统在处理异常时的鲁棒性。例如在折叠毛巾时，若意外抓取了多层布料，传统方法容易陷入重复错误的循环，而Xiaomi-Robotics-0能够识别异常并主动调整策略，展现出更强的实际问题解决能力。

五、保持“博学多才”：视觉语言能力的完美保留

在全力提升机器人“动手”能力的同时，一个关键挑战是如何确保其不“偏科”，即保留强大的“动脑”（视觉语言理解）能力。这好比培养一位工程师，不能让他精通实操后，反而看不懂设计图纸了。

为了验证这一点，团队在十个标准视觉语言基准上对系统进行了全面评估。结果显示，Xiaomi-Robotics-0在绝大多数任务上，如图像描述、视觉问答、图表理解等，其性能都与原始的通用视觉语言模型（Qwen3-VL-4B-Instruct）保持在同一水平。这意味着，在习得大量操作技能的过程中，系统并未发生“灾难性遗忘”。

更有趣的是，在专门评估具身推理能力的ERQA基准上，Xiaomi-Robotics-0的得分（40.8）甚至略高于原始模型（40.0）。一个合理的推测是，机器人轨迹数据的加入，可能帮助模型更好地理解了物理世界中的空间关系与动作逻辑。

这种综合能力的保持至关重要。未来的机器人助手在干活的同时，很可能还需要回答用户的问题（“我这个杯子放哪了？”），或理解更复杂的指令（“把桌上那本红色的书，放到书架第二层左边”）。Xiaomi-Robotics-0展现出的多模态能力，正是实现这种自然交互的基础。

对比实验也印证了联合训练策略的有效性。当团队尝试训练一个不含视觉语言数据的版本时，其在所有相关测试中的表现都近乎为零。这充分说明，专门的、多样化的视觉语言训练，是维持机器人“通用智能”的基石。

六、技术创新背后的深层意义

Xiaomi-Robotics-0的成功，其意义远超一项技术突破，它更指向了机器人智能发展的一个重要范式转变。

首先，它验证了“通才”型机器人路径的可行性。传统机器人多为“专才”，一机一能。而该系统展示了同一个模型处理从刚性物体操作到柔性材料处理等差异巨大任务的潜力，向着“通用机器人”的愿景迈进了一步。

其次，它巧妙地平衡了实时性与复杂性。通过异步执行等策略，系统实现了“快速思考”与“流畅动作”的统一，为机器人在动态、非结构化环境中实用化扫清了一个关键障碍。

从技术演进看，这项研究体现了“大规模预训练+特定任务精调”策略在机器人领域的成功应用。先通过海量多样化数据构建基础通用能力，再针对具体场景进行优化，这已成为AI多个子领域的主流路径。

尤为重要的是，该研究的开源策略（公开预训练模型、代码与工具）为整个社区提供了宝贵的基础设施。这能有效避免重复造轮子，加速整个领域的研究与应用创新。

当然，从实验室原型到千家万户的产品，仍有工程化之路要走。包括成本控制、极端情况处理、长期运行稳定性等都需要进一步优化。但毋庸置疑，Xiaomi-Robotics-0已经清晰地勾勒出了未来智能机器人助手的轮廓：一个能看、会听、懂思考、可流畅执行复杂任务的伙伴。当技术成熟并普及，它或许将重新定义我们与机器之间的关系，将人类从繁琐的日常劳作中解放出来，去专注于更具创造性的工作。

Q&A

Q1：Xiaomi-Robotics-0和传统机器人有什么不同？

最大的不同在于其能力的完整性与智能性。传统机器人通常依赖预设程序执行重复性动作，而Xiaomi-Robotics-0具备感知（视觉）、理解（语言）、规划（推理）和执行（动作）的端到端能力链，能根据实时环境和抽象指令自主完成任务，更像一个真正的智能体而非自动化设备。

Q2：这个机器人系统能处理哪些实际任务？

目前已公开验证的任务主要包括乐高积木拆装分类和毛巾折叠。这两类任务分别代表了刚性物体精细操作和柔性物体非结构化处理，是家庭和服务场景中的典型挑战。这证明了系统具备处理多种日常物理任务的潜力框架。

Q3：普通人什么时候能用上这样的机器人助手？

虽然演示效果令人印象深刻，但距离成熟的商业化产品尚需时日。当前系统仍需较高的硬件算力支持，且在应对无限开放的物理世界时，其鲁棒性和成本都需要进一步优化。不过，随着技术迭代和硬件成本下降，基于类似技术的专用或家用机器人有望在未来几年内开始进入市场探索阶段。