强化学习之父Sutton联手Carmack 机器人真实世界打游戏

2026-06-28阅读 0热度 0
毁灭战士
几个月前,成都一家商场里发生了一件不大不小的事:一台人形机器人在表演时,意外撞倒了一位老人。老人被送医,确诊为软组织挫伤。事后,猎豹移动董事长傅盛公开评论,称这不会是第一起,也不会是最后一起人形机器人伤人事件;以当前大模型的能力,两三年内,想妥善解决人形机器人的安全问题,恐怕很难。 其实,机器人在现实世界中“翻车”,早已不是什么新鲜事。这类事件撕开了一个残酷的真相:那些在实验室光鲜亮丽的演示,一旦进入不可预测的真实世界,结果往往一言难尽。 这里面藏着一条更深的规律:让AI在模拟器里学会一件事,和在真实世界里把这件事做稳,完全是两道不同的关卡,其难度差距,常常比外人想象的要大得多。 哪怕是同一套算法、同一个任务,模拟环境与真实环境之间任何一点细微的差异——比如光线强弱、地面摩擦力大小、甚至机器人自身零件的制造公差——都可能让一个训练好的策略瞬间失灵。 就在人形机器人行业还在为“能不能站稳”反复交学费的时候,由传奇程序员约翰·卡马克领导的Keen Technologies,联合阿尔伯塔大学和Openmind研究所的研究者,发布了一篇论文,从一个更本源的角度回应了这个问题:**能不能让强化学习算法,在真实世界里,真刀真枪地、长时间不间断地自己学习,而无需人类在旁边照看,也不强求它一上来就成功?** 为了回答这个问题,他们造了一套系统,专门用来“打Atari游戏”。这套系统,叫做**Physical Atari**。 ## 强化学习的「真实世界」难题 Atari游戏在AI领域是个老朋友了。早在2013年,DeepMind用深度强化学习算法在模拟器里学会了打Atari游戏,这被视为深度强化学习崛起的标志性事件。此后,Rainbow、MuZero等一系列经典算法,也都把Atari游戏当作标准考场。但这些考场无一例外都是模拟器:游戏世界会乖乖地等算法做完决策,再继续往下走。 真实世界完全不是这回事。想象一下,你开车时前方突然出现状况,哪怕你还在思考要不要踩刹车,车依然在继续往前开——世界不会等你。 论文将这种“世界不等你”的设定称为“**实时强化学习**”,并一针见血地指出,这恰恰是机器人所面临的真实处境。 目前,机器人领域训练AI主要靠三条路: 第一条是**在模拟器里练好了再搬到真机器人上**。这是现在大多数人形机器人厂商的主流做法,但模拟器与真实世界之间的差异,恰恰是前面那些摔倒事件的根源。 第二条是**靠人类远程操控机器人采集大量示范数据,再用这些数据离线训练**。 第三条,也是最少人敢走的一条路,是**让机器人直接在真实世界里一边干一边学**。 第三条路省去了搭建模拟器的成本,也省去了雇佣人手采集数据的麻烦,从根本上避免了“模拟器和现实不一样”这个老大难问题。但代价是,你需要一台足够耐用、足够便宜、能被普通研究者负担得起,还要能撑住几周不间断高强度运转的机器人。 **Physical Atari**就是冲着这个空白,交出的答案。 ## 团队简介 这支团队的第一作者是Keen Technologies的研究科学家**Khurram Ja ved**。 而作者名单中,出现了两位大神的名字:**约翰·卡马克(John Carmack)**与**理查德·萨顿(Richard S. Sutton)**。 卡马克是id Software的联合创始人,主导开发了《毁灭战士》、《雷神之锤》等划时代游戏,他发明的多项3D图形算法被写入了教科书。2013年加入Oculus担任CTO后,又把虚拟现实从概念变成了量产产品。 2022年,他离开Oculus创立Keen Technologies,将目标对准了通用人工智能。 第二年,他邀请了强化学习领域的奠基人之一、阿尔伯塔大学教授Richard S. Sutton加入。两人此后一直专注研究能在真实世界中持续学习、持续适应的智能体。 而Sutton本人也是这篇论文的作者之一。这意味着,眼前这台机械手不只是工程团队的动手实践,更直接体现了这位强化学习理论奠基人对“智能体该怎么学”这件事的判断。 Physical Atari正是这套理念的一次具体落地:**与其在论文里空谈“智能体应该在现实中学习”,不如先把硬件造出来,让算法真的跑起来**。 ## 用一台「机械手」打游戏,是怎么造出来的 整套系统其实只有两个核心部件。一个叫**Atari Devbox**,本质是一台塞进3D打印外壳里的树莓派5,接上一块5英寸屏幕,跑着经典的Arcade Learning Environment模拟器,以60帧每秒的速度渲染Atari游戏画面。 另一个叫**Robotroller**,是一只专门用来按真实摇杆的机械手:它不会去触碰任何电路或代码,只是像人一样,握住一支没有经过任何改装的Atari CX40+摇杆,通过三个伺服电机分别控制摇杆的上下、左右移动和开火按钮。 一台摄像头对着屏幕拍下游戏画面,运行强化学习算法的电脑根据画面做决策,再把指令发给Robotroller,后者负责把这个决策变成真实的手部动作。 这个设计思路的关键是**让AI完全通过“看屏幕、动摇杆”这种最朴素的人类交互方式与游戏对话**,不开任何后门,因此能直接复用游戏机制本身,无需额外搭建仿真接口。 听起来简单,但论文里花了大量篇幅讲的,其实是“如何让一只机械手几周不坏”。 研究者最早遇到的问题是螺丝会松动,解决办法是改用螺纹锁固胶;接着发现伺服电机内部的塑料齿轮会磨损,于是换成了金属齿轮版本;再后来发现摇杆本身被这套机械手“用坏了”,追根溯源是因为电机的动作太“猛”,给摇杆造成了不必要的应力,于是团队重新调整了控制参数,让动作变得更柔和。 最有意思的一处修复,是研究者给伺服电机加上了一个“高电流反射”机制:一旦检测到某个电机的电流超过设定阈值(通常意味着它被卡住或顶到了硬限位),系统会立刻让它原地停住、瞬间松开扭矩再重新锁紧,就像人体的腱反射在过度拉伸时自动收索肌肉一样,避免电机硬扛着烧坏。 这个机制听起来不起眼,却是让整套系统能连续运转几周不出故障的关键一环。 至于“**奖励信号**”(游戏得分),团队也没有用网线或代码偷偷传输,而是让Devbox屏幕上同步显示一组AprilTags视觉标记,由摄像头直接“看”出当前是加分还是减分。 换句话说,**这台机器人感知世界的方式,从画面到得分,全部通过摄像头这一个通道完成,与人类玩游戏没有本质区别。** 整套硬件成本被控制在**1000美元**以内,其中Robotroller本身需要采购的零件(伺服电机、轴承、螺丝等)大约400美元,定制部件可以用一台普通消费级3D打印机打出来,耗时约12小时。 ## 真机器人,真打了145个小时游戏 研究者让这套系统在Pong、Seaquest、Ms Pacman、Assault、Asterix和Kangaroo六款游戏上分别学习五个半小时,每款游戏重复4到5次实验。 累计下来,这些实验总共跑了将近145个小时,期间没有任何人工干预——没有人去扶它、没有人去重启它,机械手自己一遍遍按着摇杆,自己一点点学会如何把游戏分数往上拉。 更值得关注的是另一组实验:研究者先让一个智能体在某一台Robotroller上学习6小时,然后把训练好的策略分别部署到原来那台机器人,和另一台“按同样图纸造出来”的机器人上测试。 结果是,**即便两台机器人用的是完全相同的设计图纸和零件,策略在“陌生身体”上的表现也始终明显更差**。 在需要精准卡点的Pong游戏里,这种差距格外明显:挪到新机器上的策略能看出球的方向、能往正确的方向移动球拍,却总是差那么一点点没接住。原因无他,哪怕是同型号零件之间的微小公差,都足以让原本卡得很准的时机错位。 Pong与Kangaroo游戏画面 研究者随后让智能体在“陌生身体”上继续学习,结果策略表现逐渐回升,重新逼近换身体前的水平。 这组对照实验从侧面印证了论文反复强调的一个判断:**哪怕差异小到“同款机器人换了一台”,只要存在于训练和部署之间,就足以拖累表现,而直接在目标身体上持续学习,是修复这种偏差最直接的办法**。 整个系统**165毫秒**左右的端到端响应延迟也大致落在人类反应速度的区间内,说明这套硬件的“反应能力”本身没有成为瓶颈,问题确实出在策略和身体之间的匹配上。 ## 结语 Physical Atari本身并不打算让机器人学会走路或叠衣服。它解决的是一个更基础的问题:如果你想验证“机器人能不能在现实世界里自己学习”,那么至少现在有了**一套足够便宜、足够耐用、谁都能复刻的实验台**。相比于在发布会舞台上展示一段精心调试过的动作,在真实世界里连续运转145个小时且无需人工干预,或许才是检验一套强化学习算法是否真正可靠的朴素标准。
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策