MolmoAct 2开源机器人模型测评:面向真实环境的AI核心能力解析

2026-05-19阅读 0热度 0
基础模型

艾伦人工智能研究院(Ai2)正式发布了新一代开源机器人基础模型MolmoAct 2。此次发布并非简单的版本更新,而是直接针对机器人技术迈向实用化的核心瓶颈:如何让机器人摆脱对实验室“温室”环境的依赖,在复杂、动态且充满不确定性的真实物理世界中,实现稳定可靠的任务执行。

Ai2发布面向真实环境的开源机器人基础模型MolmoAct 2

当前,AI在文本生成、代码编程等数字领域已展现出强大能力,但物理世界的具身智能仍是巨大挑战。对于收拾桌面、准备实验样本这类对人类而言简单的日常操作,现有机器人系统往往需要数小时连续运行,且成功率难以保证。Ai2在技术公告中明确指出了这一行业痛点。

MolmoAct 2作为一次重大架构升级,其发布顺应了行业开发更通用、更具环境适应性的机器人AI的趋势。这类基础模型的核心目标,是减少对海量任务专用编程的依赖,赋予机器人基于视觉感知自主理解环境并做出决策的能力。

从“固定程序”到“动作推理”

MolmoAct 2的核心突破在于其采用的“动作推理模型”架构。区别于依赖固定程序或针对单一任务进行精细调优的传统范式,这一新架构使系统在执行任何物理动作前,能够对三维环境进行感知、分析和推理。

这种基于推理的决策机制直接带来了更强的任务通用性。据官方介绍,MolmoAct 2能够以“开箱即用”的方式执行多种操作任务,尤其擅长需要双臂协调的复杂动作序列,例如折叠毛巾、分拣不同物体、搬运托盘以及清理桌面杂物。

速度与开放:两大核心亮点

除了更强的智能,新模型在推理速度上实现了质的飞跃。对于需要实时交互的机器人控制而言,低延迟至关重要。Ai2公布的数据显示,在启用自适应深度推理模式下,MolmoAct 2单次动作调用的耗时约为790毫秒。作为对比,其前代模型MolmoAct的耗时高达6700毫秒。这意味着响应速度提升了近九倍,使得机器人的动作衔接更为流畅,显著减少了行为迟滞。

另一项关键优势是其开放性。Ai2延续了推动开放AI研究的理念,此次完整公开了模型权重、训练数据集以及一个开源机器人动作Token器。在机器人领域许多先进系统仍处于封闭专有状态的背景下,这一举措为更广泛的研究社区参与和创新提供了坚实基础。

特别是同步发布的MolmoAct 2-Bimanual YAM数据集,被定义为“目前规模最大的开源双臂桌面操作机器人数据集”。该数据集包含了超过720小时的机器人演示数据,覆盖了折叠毛巾、商品扫描、手机充电等多种需要双臂协调的任务场景,为训练和评估同类模型提供了极具价值的基准资源。

真实表现与早期应用

模型的最终价值由实际性能决定。Ai2报告称,MolmoAct 2在模拟环境与真实机器人硬件评估中均表现优异。在使用Franka机械臂进行的实体测试中,该系统在将物体移入碗中、精准放置移液管、将物体插入狭窄空间等多项操作任务上取得了高成功率。此外,根据第三方评估机构Cortex AI的基准测试,该模型的性能也超越了多款竞品机器人模型。

更值得关注的是,它已开始在实际科研场景中验证其价值。斯坦福医学院的研究团队正在一个“自驱动湿实验室”项目中,试点将MolmoAct 2集成到CRISPR基因编辑的工作流程中,用于自动化执行样本传递、操作实验设备等重复性实验室任务。初步测试表明,针对特定工作流进行微调后,MolmoAct 2在优化实验室操作环节、加速科研进程方面展现出显著潜力。

当前的局限与未来的考验

当然,任何前沿技术在早期阶段都存在局限性,MolmoAct 2也不例外。Ai2坦诚指出了两点:首先,模型目前采用批量动作规划模式,而非实时连续的轨迹调整。这意味着在面对完全未预料的突发干扰时,系统的即时纠错能力可能受限。其次,模型的泛化能力仍有明确边界,目前主要适配于其训练所用的特定机器人平台,若要部署到硬件构型差异较大的新平台上,需要进行额外的适配训练。

这引出了一个根本性的挑战:机器人模型的终极试金石,在于其能否在非受控的实验室环境之外保持稳定工作。真实世界指令模糊、环境动态变化,微小误差可能持续累积。能否跨越从“实验室可靠”到“现实世界鲁棒”这道鸿沟,是衡量MolmoAct 2及所有机器人基础模型成败的关键标准。

无论如何,MolmoAct 2的发布清晰地标志着开放机器人基础模型领域正在加速发展。研究社区正致力于构建不再脆弱、能够真正理解并适应复杂物理世界的智能体。目前,该模型的全部资源,包括模型权重、数据集、技术报告和核心代码,均已通过Ai2的研究平台向公众开放。

Q&A

Q1:MolmoAct 2是什么?它有哪些核心能力?

A:MolmoAct 2是由艾伦人工智能研究院(Ai2)发布的开源机器人基础模型,其核心采用“动作推理模型”架构,能够在执行物理动作前对三维环境进行感知与推理。它支持开箱即用地执行多种双臂协作任务,如折叠毛巾、物品分拣和托盘搬运。其推理速度相比前代实现数量级提升,单次动作调用耗时仅约790毫秒,约为前代模型的九分之一。

Q2:MolmoAct 2与其他机器人模型相比有什么优势?

A:MolmoAct 2的核心优势主要体现在三个方面:一是极致的推理速度,将动作调用时延从前代的6700毫秒大幅降低至790毫秒;二是彻底的开放性,完整发布了模型权重、训练数据集及开源动作Token器;三是配套了目前规模最大的开源双臂桌面操作数据集MolmoAct 2-Bimanual YAM,包含超过720小时的演示数据。在Cortex AI的第三方评估中,其性能也优于多款主流竞争模型。

Q3:MolmoAct 2目前有哪些已知局限性?

A:MolmoAct 2目前存在两项主要技术局限:第一,其采用批量动作规划方式,无法对运动轨迹进行实时持续调整,因此在应对突发动态障碍时即时响应能力不足;第二,模型的平台泛化能力有限,目前主要适配于其训练所针对的特定机器人硬件,若需部署到构型差异显著的新平台,需要进行额外的适配与训练工作。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策