英伟达编程Agent接管机器人实验，成功率高达99%

2026-06-18阅读 0热度 0

IDIA

自动化研究正式突破代码沙盒的边界，真正进入了物理世界。

NVIDIA GEAR实验室负责人Jim Fan日前公布了其团队的最新项目ENPIRE，这标志着机器人领域自动化研究在硬件层面实现了实质性突破。

设想这样一个场景：8个Codex Agent组成一支机器人舰队，配备充足的GPU算力与token预算，目标只有一个——以最高效率完成任务，确保机器人持续运行但避免故障，同时不浪费计算资源。之后，人类几乎可以全程放手。

这些Agent自主驱动整个闭环流程：自动重置环境、检索文献、执行想法并搭建基础设施、训练与部署策略、自我验证、分析日志并修改代码。它们持续迭代，直至在真实硬件上稳定完成高复杂度灵巧操作，例如系扎带、整理插针盒、安装GPU等任务。

一个有趣的发现是“物理规模定律”——当并行机器人的数量从少数增加到8台时，任务解决速度明显提升。

目前，实验室的部分系统已能在无人干预的情况下彻夜自我迭代。研究人员只需在早晨查看报告。Jim Fan甚至表示，未来的目标是让团队安心休假，即使NVIDIA CEO黄仁勋也不会察觉实验室仍在自主运转。

ENPIRE项目计划开源，届时普通开发者在家即可搭建类似的自主机器人研究系统。

ENPIRE系统架构：四模块闭环设计

ENPIRE是一个专为编码Agent设计的框架，通过四个核心模块构建可复现的物理反馈循环：环境模块(EN)负责自动重置与验证；策略改进模块(PI)触发策略优化；Rollout模块(R)支持单台或多台机器人并行策略评估；进化模块(E)让编码Agent分析日志、查阅文献、优化训练基础设施与算法代码，针对性解决失败模式。

这一闭环系统将真实世界的机器人学习转化为由Agent管理的可控优化过程。人工介入降至最低，同时可对不同训练配方与Agent变体进行公平的消融实验。

在ENPIRE支持下，前沿编程Agent已能自主开发策略，在PushT、插针整理进针盒、用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中，实现99%的成功率。

关键发现：环境重置比任务执行更高效

一个关键观察是：对于许多机器人任务，重置环境往往比完成任务本身更简单。

因此，ENPIRE首先让Agent通过Code-as-Policy构建自动重置环境。在许多场景下，重置本质上是一个pick-and-place任务，使用Cap-X即可实现。

随后，Agent编写基于启发式规则的奖励函数。团队将该环境放入沙箱，启动Agent围绕得分进行自动化研究。

这与Karpathy对自动化研究的定义一致：这里指的并非简单的超参数调优或代码微调，而是Agent自主从互联网探索不同范式，重写一切可能提升性能的组件，包括算法、训练目标甚至数据加载器。

在插针任务中，一个Agent甚至自行编写了接触力安全控制器，其效果优于单纯调节若干强化学习参数。

全新指标：MRU与MTU

ENPIRE的扩展能力受限于Agent团队规模与算力资源，但在此场景下，真正的稀缺资源并非GPU，而是机器人运行时间。

当团队提供给Agent 8台机器人而非1台时，插针任务达到近乎完美表现所需时间从1.5小时以上缩短至约40分钟。Agent通过Git协同工作：共享代码、淘汰低效方案，并自主选择彼此的最佳运行结果。

这揭示了一个重大转变：机器人研究正逐渐演变为环境设计工作——为编码Agent搭建可进行自动化研究的环境；算法工作则上升至更高层级，转向构建Agent能够自行闭合的反馈循环。

这一循环产生复利效应：Agent今天掌握的一项技能，明天将成为构建并重置更复杂任务环境的基础模块。能力自我强化，衍生新能力。

在此范式下，真正的硬约束是真实世界交互的预算。

因此，团队提出了两个评估指标：

平均机器人利用率(Mean Robot Utilization, MRU)：机器人实际执行实验的时间占真实总耗时的比例。
平均Token利用率(Mean Token Utilization, MTU)：衡量Agent将Token转化为研究进展的效率。

实验中，MRU始终低于50%。这意味着机器人近一半时间处于空闲，等待Agent决策。因此，更优的编排框架与更快的模型将直接转化为实际收益。

PushT是一个经典的机器人操作基准。传统上，完成该任务需要大量人类演示数据，再结合数小时的行为克隆训练。

但团队发现，Codex、Claude Code和Kimi Code均采用基于规则的启发式方法，在不到2小时内“解决”了该任务：无需神经网络、无需训练、不依赖任何人类数据。

为让更多人能在自家环境中尝试物理世界的自动化研究，团队基于@LeRobotHF的SO-101套件与NVIDIA Jetson Thor，开发了一套完整的全栈系统。该系统可完成PushT任务。

英伟达编程Agent接管机器人实验，成功率高达99%

ENPIRE系统架构：四模块闭环设计

关键发现：环境重置比任务执行更高效

全新指标：MRU与MTU

相关阅读

最新教程

最新资讯