波士顿动力机器狗深度测评:2024年顶尖榜单与性能对比

2026-06-24阅读 0热度 0
机器人

谷歌DeepMind的机器人推理模型迎来关键升级。最新发布的Gemini Robotics-ER 1.6,旨在赋予机器人更深层的环境理解力,使其从单纯执行指令迈向真正的物理世界交互。

搭载该系统的波士顿动力机器狗Spot,现已能在工厂巡检中自主定位压力表并精确读取刻度。同时,机械臂也获得了自主判断任务起始与完成状态的能力。

作为Gemini Robotics第三代空间推理模型,ER 1.6的发布恰逢谷歌与波士顿动力宣布重启合作。这被视为双方“复合”后的首个实质性成果,DeepMind负责人德米斯·哈萨比斯已第一时间确认了这一进展。

ER 1.6的核心定位是机器人的“高层认知系统”。它专注于环境解析、任务规划与工具调用,而非底层运动控制。无论是接入谷歌搜索、视觉语言模型,还是开发者自定义的功能模块,它都能高效调度。

相比前代ER 1.5与Gemini 3.0 Flash,新模型在空间推理、物体计数及任务成功检测等关键指标上均有大幅优化。它还解锁了一项核心工业技能:仪表盘识别。

Gemini Robotics-ER 1.6:赋予机器人环境感知能力

要让机器人实现实用化部署,必须使其具备对物理场景进行逻辑推理的能力,这正是ER 1.6的研发主旨。

ER 1.6的所有核心迭代,都服务于一个目标:让机器人系统深度理解其操作环境。

从图像采集到数据解读:仪表识别能力解析

以Spot的工厂应用为例。工业场景中存在大量需监控的仪表设备,如压力表、温度计和液位视镜。传统方案只能完成图像采集,无法解读数据。

ER 1.6通过三步流程解决该问题:首先进行图像局部放大以识别精细刻度;随后利用“空间指向”能力定位指针与刻度线,通过代码计算比例;最终结合领域知识,将原始数值转换为可操作的物理读数。

这套方法成效显著。ER 1.5的仪表识别成功率仅为23%,而引入“智能视觉”架构的ER 1.6,将成功率提升至93%。

波士顿动力Spot业务副总裁马可·达席尔瓦指出:“仪表识别这类高阶能力,结合更可靠的任务推理,将使Spot能完全自主地观察、解析并应对复杂的现场工况。”

空间指向:环境交互的基础能力

高精度仪表识别的底层支撑,是强化后的“空间指向”能力。这是ER模型系列的基础功能,即让模型能用坐标点表达其对空间关系的理解,包括物体定位、数量统计及最佳抓取点判断。

ER 1.5曾在此类任务中出现失误:错误统计工具数量,甚至指认图中不存在的物品。ER 1.6则能准确识别出“2把锤子、1把剪刀、1支画笔、6把钳子”,并对图中未出现的物品保持“未知”判断。

任务成功检测:实现闭环操作的关键

“成功检测”是ER 1.6的另一项核心升级。准确判断任务何时完成,与规划任务起点同等重要,这是实现全自主操作闭环的前提。

传统系统在执行完预设动作序列后即默认任务完成。但在真实环境中,遮挡、光线变化及指令歧义等因素使得“完成状态”需要高级认知进行判断。ER 1.6增强了多视角融合推理能力,能综合机器人本体多个摄像头的画面,形成可靠的状态结论。

例如在演示中:将笔放入笔筒后,任务是否真正完成?ER 1.6能从多个视角进行交叉验证,给出确定答案。

该模型也是谷歌目前最安全的机器人推理系统。在对抗性空间推理测试中,ER 1.6对安全指令的遵循度超越所有前代版本。对于“不搬运超重物体”等物理约束,它能通过空间输出做出更精准的合规判断。

在基于真实事故报告的安全隐患识别测试中,ER系列模型的表现较Gemini 3.0 Flash在文本和视频场景下分别高出6%和10%。

谷歌与波士顿动力:战略合作的重新校准

为何选择波士顿动力Spot作为展示平台?这涉及一段战略调整的历史。

谷歌于2013年收购波士顿动力,但在2017年因其商业化路径不明晰而将其出售给软银。2020年,现代汽车以约8.8亿美元完成收购。转折点在2025年11月出现,波士顿动力前CTO亚伦·桑德斯离职并加入谷歌DeepMind。

随后在2026年CES上,谷歌与波士顿动力在现代汽车的发布会上正式宣布合作,目标是将Gemini Robotics系统部署于Atlas人形机器人。

出售九年后,双方以新的协作模式再度联手。哈萨比斯对此的解读是,谷歌自身不涉足硬件制造,而是致力于成为“机器人领域的安卓系统”,为各类机器人厂商提供智能核心。

ER 1.6的发布由劳拉·格雷瑟与彭旭主导。劳拉·格雷瑟拥有牛津大学本科及纽约大学硕士学位,2018年加入谷歌,自2024年起在DeepMind专注于机器人研究。她曾合著强化学习教材《深度强化学习基础》。

其早期研究方向包括机器人乒乓球对打,该任务要求系统在100毫秒内完成感知、决策与执行的全链路响应。

彭旭是DeepMind机器人基础模型方向的研究员,聚焦于机器人学习与大模型的融合。他不仅是机器人乒乓球项目的参与者,也是RT-1、RT-2、代码即策略以及Gemini Robotics等多个标志性项目的核心贡献者。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策