MolmoAct 2开源机器人模型测评：面向真实环境的AI核心能力解析

2026-05-19阅读 0热度 0

基础模型

艾伦人工智能研究院（Ai2）正式发布了新一代开源机器人基础模型MolmoAct 2。此次发布并非简单的版本更新，而是直接针对机器人技术迈向实用化的核心瓶颈：如何让机器人摆脱对实验室“温室”环境的依赖，在复杂、动态且充满不确定性的真实物理世界中，实现稳定可靠的任务执行。

当前，AI在文本生成、代码编程等数字领域已展现出强大能力，但物理世界的具身智能仍是巨大挑战。对于收拾桌面、准备实验样本这类对人类而言简单的日常操作，现有机器人系统往往需要数小时连续运行，且成功率难以保证。Ai2在技术公告中明确指出了这一行业痛点。

MolmoAct 2作为一次重大架构升级，其发布顺应了行业开发更通用、更具环境适应性的机器人AI的趋势。这类基础模型的核心目标，是减少对海量任务专用编程的依赖，赋予机器人基于视觉感知自主理解环境并做出决策的能力。

从“固定程序”到“动作推理”

MolmoAct 2的核心突破在于其采用的“动作推理模型”架构。区别于依赖固定程序或针对单一任务进行精细调优的传统范式，这一新架构使系统在执行任何物理动作前，能够对三维环境进行感知、分析和推理。

这种基于推理的决策机制直接带来了更强的任务通用性。据官方介绍，MolmoAct 2能够以“开箱即用”的方式执行多种操作任务，尤其擅长需要双臂协调的复杂动作序列，例如折叠毛巾、分拣不同物体、搬运托盘以及清理桌面杂物。

速度与开放：两大核心亮点

除了更强的智能，新模型在推理速度上实现了质的飞跃。对于需要实时交互的机器人控制而言，低延迟至关重要。Ai2公布的数据显示，在启用自适应深度推理模式下，MolmoAct 2单次动作调用的耗时约为790毫秒。作为对比，其前代模型MolmoAct的耗时高达6700毫秒。这意味着响应速度提升了近九倍，使得机器人的动作衔接更为流畅，显著减少了行为迟滞。

另一项关键优势是其开放性。Ai2延续了推动开放AI研究的理念，此次完整公开了模型权重、训练数据集以及一个开源机器人动作Token器。在机器人领域许多先进系统仍处于封闭专有状态的背景下，这一举措为更广泛的研究社区参与和创新提供了坚实基础。

特别是同步发布的MolmoAct 2-Bimanual YAM数据集，被定义为“目前规模最大的开源双臂桌面操作机器人数据集”。该数据集包含了超过720小时的机器人演示数据，覆盖了折叠毛巾、商品扫描、手机充电等多种需要双臂协调的任务场景，为训练和评估同类模型提供了极具价值的基准资源。

真实表现与早期应用

模型的最终价值由实际性能决定。Ai2报告称，MolmoAct 2在模拟环境与真实机器人硬件评估中均表现优异。在使用Franka机械臂进行的实体测试中，该系统在将物体移入碗中、精准放置移液管、将物体插入狭窄空间等多项操作任务上取得了高成功率。此外，根据第三方评估机构Cortex AI的基准测试，该模型的性能也超越了多款竞品机器人模型。

更值得关注的是，它已开始在实际科研场景中验证其价值。斯坦福医学院的研究团队正在一个“自驱动湿实验室”项目中，试点将MolmoAct 2集成到CRISPR基因编辑的工作流程中，用于自动化执行样本传递、操作实验设备等重复性实验室任务。初步测试表明，针对特定工作流进行微调后，MolmoAct 2在优化实验室操作环节、加速科研进程方面展现出显著潜力。

当前的局限与未来的考验

当然，任何前沿技术在早期阶段都存在局限性，MolmoAct 2也不例外。Ai2坦诚指出了两点：首先，模型目前采用批量动作规划模式，而非实时连续的轨迹调整。这意味着在面对完全未预料的突发干扰时，系统的即时纠错能力可能受限。其次，模型的泛化能力仍有明确边界，目前主要适配于其训练所用的特定机器人平台，若要部署到硬件构型差异较大的新平台上，需要进行额外的适配训练。

这引出了一个根本性的挑战：机器人模型的终极试金石，在于其能否在非受控的实验室环境之外保持稳定工作。真实世界指令模糊、环境动态变化，微小误差可能持续累积。能否跨越从“实验室可靠”到“现实世界鲁棒”这道鸿沟，是衡量MolmoAct 2及所有机器人基础模型成败的关键标准。

无论如何，MolmoAct 2的发布清晰地标志着开放机器人基础模型领域正在加速发展。研究社区正致力于构建不再脆弱、能够真正理解并适应复杂物理世界的智能体。目前，该模型的全部资源，包括模型权重、数据集、技术报告和核心代码，均已通过Ai2的研究平台向公众开放。

Q&A

Q1：MolmoAct 2是什么？它有哪些核心能力？

A：MolmoAct 2是由艾伦人工智能研究院（Ai2）发布的开源机器人基础模型，其核心采用“动作推理模型”架构，能够在执行物理动作前对三维环境进行感知与推理。它支持开箱即用地执行多种双臂协作任务，如折叠毛巾、物品分拣和托盘搬运。其推理速度相比前代实现数量级提升，单次动作调用耗时仅约790毫秒，约为前代模型的九分之一。

Q2：MolmoAct 2与其他机器人模型相比有什么优势？

A：MolmoAct 2的核心优势主要体现在三个方面：一是极致的推理速度，将动作调用时延从前代的6700毫秒大幅降低至790毫秒；二是彻底的开放性，完整发布了模型权重、训练数据集及开源动作Token器；三是配套了目前规模最大的开源双臂桌面操作数据集MolmoAct 2-Bimanual YAM，包含超过720小时的演示数据。在Cortex AI的第三方评估中，其性能也优于多款主流竞争模型。

Q3：MolmoAct 2目前有哪些已知局限性？

A：MolmoAct 2目前存在两项主要技术局限：第一，其采用批量动作规划方式，无法对运动轨迹进行实时持续调整，因此在应对突发动态障碍时即时响应能力不足；第二，模型的平台泛化能力有限，目前主要适配于其训练所针对的特定机器人硬件，若需部署到构型差异显著的新平台，需要进行额外的适配与训练工作。