英伟达编程Agent接管机器人实验,成功率高达99%
自动化研究正式突破代码沙盒的边界,真正进入了物理世界。
NVIDIA GEAR实验室负责人Jim Fan日前公布了其团队的最新项目ENPIRE,这标志着机器人领域自动化研究在硬件层面实现了实质性突破。
设想这样一个场景:8个Codex Agent组成一支机器人舰队,配备充足的GPU算力与token预算,目标只有一个——以最高效率完成任务,确保机器人持续运行但避免故障,同时不浪费计算资源。之后,人类几乎可以全程放手。
这些Agent自主驱动整个闭环流程:自动重置环境、检索文献、执行想法并搭建基础设施、训练与部署策略、自我验证、分析日志并修改代码。它们持续迭代,直至在真实硬件上稳定完成高复杂度灵巧操作,例如系扎带、整理插针盒、安装GPU等任务。
一个有趣的发现是“物理规模定律”——当并行机器人的数量从少数增加到8台时,任务解决速度明显提升。
目前,实验室的部分系统已能在无人干预的情况下彻夜自我迭代。研究人员只需在早晨查看报告。Jim Fan甚至表示,未来的目标是让团队安心休假,即使NVIDIA CEO黄仁勋也不会察觉实验室仍在自主运转。
ENPIRE项目计划开源,届时普通开发者在家即可搭建类似的自主机器人研究系统。
ENPIRE系统架构:四模块闭环设计
ENPIRE是一个专为编码Agent设计的框架,通过四个核心模块构建可复现的物理反馈循环:环境模块(EN)负责自动重置与验证;策略改进模块(PI)触发策略优化;Rollout模块(R)支持单台或多台机器人并行策略评估;进化模块(E)让编码Agent分析日志、查阅文献、优化训练基础设施与算法代码,针对性解决失败模式。
这一闭环系统将真实世界的机器人学习转化为由Agent管理的可控优化过程。人工介入降至最低,同时可对不同训练配方与Agent变体进行公平的消融实验。
在ENPIRE支持下,前沿编程Agent已能自主开发策略,在PushT、插针整理进针盒、用切刀剪断扎带等具有挑战性的真实世界灵巧操作任务中,实现99%的成功率。
关键发现:环境重置比任务执行更高效
一个关键观察是:对于许多机器人任务,重置环境往往比完成任务本身更简单。
因此,ENPIRE首先让Agent通过Code-as-Policy构建自动重置环境。在许多场景下,重置本质上是一个pick-and-place任务,使用Cap-X即可实现。
随后,Agent编写基于启发式规则的奖励函数。团队将该环境放入沙箱,启动Agent围绕得分进行自动化研究。
这与Karpathy对自动化研究的定义一致:这里指的并非简单的超参数调优或代码微调,而是Agent自主从互联网探索不同范式,重写一切可能提升性能的组件,包括算法、训练目标甚至数据加载器。
在插针任务中,一个Agent甚至自行编写了接触力安全控制器,其效果优于单纯调节若干强化学习参数。
全新指标:MRU与MTU
ENPIRE的扩展能力受限于Agent团队规模与算力资源,但在此场景下,真正的稀缺资源并非GPU,而是机器人运行时间。
当团队提供给Agent 8台机器人而非1台时,插针任务达到近乎完美表现所需时间从1.5小时以上缩短至约40分钟。Agent通过Git协同工作:共享代码、淘汰低效方案,并自主选择彼此的最佳运行结果。
这揭示了一个重大转变:机器人研究正逐渐演变为环境设计工作——为编码Agent搭建可进行自动化研究的环境;算法工作则上升至更高层级,转向构建Agent能够自行闭合的反馈循环。
这一循环产生复利效应:Agent今天掌握的一项技能,明天将成为构建并重置更复杂任务环境的基础模块。能力自我强化,衍生新能力。
在此范式下,真正的硬约束是真实世界交互的预算。
因此,团队提出了两个评估指标:
平均机器人利用率(Mean Robot Utilization, MRU):机器人实际执行实验的时间占真实总耗时的比例。
平均Token利用率(Mean Token Utilization, MTU):衡量Agent将Token转化为研究进展的效率。
实验中,MRU始终低于50%。这意味着机器人近一半时间处于空闲,等待Agent决策。因此,更优的编排框架与更快的模型将直接转化为实际收益。
PushT是一个经典的机器人操作基准。传统上,完成该任务需要大量人类演示数据,再结合数小时的行为克隆训练。
但团队发现,Codex、Claude Code和Kimi Code均采用基于规则的启发式方法,在不到2小时内“解决”了该任务:无需神经网络、无需训练、不依赖任何人类数据。
为让更多人能在自家环境中尝试物理世界的自动化研究,团队基于@LeRobotHF的SO-101套件与NVIDIA Jetson Thor,开发了一套完整的全栈系统。该系统可完成PushT任务。








