Decart Oasis 3世界模型权威评测:机器人训练真实感突破
这款全新的视频输出模型,专门用于加速机器人与自动驾驶车辆操作系统的训练流程。其根本使命是构建能够应对现实世界复杂性与不确定性的智能硬件——不是实验室里的演示原型,而是真正可部署于实际场景的自主系统。
训练数据稀缺,机器人研发面临结构性瓶颈
机器人开发者长期受困于一个核心痛点:可用于训练机器在复杂物理环境中运行的有效数据,极度匮乏。 例如,自动驾驶车在静态停车场内学会绕锥桶行驶并不困难。但此类场景与真实道路环境相差悬殊——尤其是当天气与光照条件剧烈变化时。要让车辆在暴雨中穿越拥挤的城市街道,并对突然冲出的犬只做出即时反应,完全是另一层级的挑战。Oasis 3正是为此类难题而设计。 大语言模型的发展速度显著快于通用机器人(即实体AI),根本原因在于后者缺少海量可用的媒体资源。Bessemer Ventures今年早些时候的研究报告明确指出:大语言模型开发者可从公共互联网抓取数十亿网页数据,但驱动实体AI与物理世界交互所需的视觉-语言-动作(VLA)模型,则无法享受这种数据红利。 VLA模型的工作流程为:摄取环境数据、处理并理解当前状态、对输入做出响应。在训练方法上,开发者目前有三条可选路径,但每条均存在明显短板。 第一条路:自建远程操控数据。具体做法是让人员穿戴专用设备,模拟机器人在特定场景中的动作。数据质量最高,但采集成本极高、效率极低,根本无法扩展至所需规模。 第二条路:使用网络公开视频。这类资源数量充足,但内容杂乱,实用性有限——环境缺乏一致性,无法按需复现多样化条件,也缺少空间遥测数据与直接动作条件信息。 第三条路:使用合成数据,属于折中方案。但现有物理引擎质量参差不齐,规则边界僵化,难以还原真实世界的细微变化。 研究人员将这种差距称为“仿真到现实的鸿沟”。简言之,当前用于生成机器人虚拟训练环境的AI软件,无法模拟真实世界中千变万化的随机状况——例如路面油污、仓库中异常易碎的纸箱。一旦遭遇此类突发情况,自动驾驶车辆和机器人往往会完全失效。Oasis 3如何弥合仿真与现实的差距
Decart表示,Oasis 3的设计目标就是突破现有虚拟训练环境的局限性。它将照片级真实感的交互式动态图形能力,与强大的物理引擎融为一体。 这两个组件被整合在一个高性能训练循环中,使Oasis 3能够生成动作条件化视频流。开发者可在其中模拟几乎任何能想象的混乱场景,从而构建出更贴近物理世界的优质训练环境。 开发者可利用Oasis 3创建多视角环境,既高度逼真,又可精确控制。当自动驾驶车辆向左转向时,实时生成流会在200毫秒内即时调整视角,该延迟完全满足强化学习的要求。 该模型与英伟达实体AI生态系统协同设计,运行在CoreWea ve的专用云基础设施之上,帧率达到每秒22帧,可生成512×768×3分辨率的交互式虚拟环境。 Oasis 3原生支持三摄像头视角,确保多角度空间与时间一致性,帮助自主系统准确判断深度与周边环境。通过Decart的API对外开放,开发者可轻松将其集成到现有实体AI仿真工作流中。无限场景生成,让机器人为一切意外做好准备
若要使实体AI达到科幻作品中类人机器人的水平,开发者必须能够实时训练机器人应对各种极端边缘案例。 这意味着需要创造出那些在实验室里根本无法复现的场景——例如,一辆卡车在行驶中货物脱落,恰好落在一辆摄像头已被泥巴遮挡的自动驾驶车前方。 这正是Oasis 3能够实现的场景类型。借助简单自然语言提示,开发者可生成此类事件的无限变体,涵盖多种拍摄角度、各类恶劣天气条件以及不同路面类型。 开发者或许终于找到了一种经济实惠的方式,让自己的模型接触数百万种不同的危险场景,确保它们能应对现实世界中一切可能发生的突发情况。Q&A
Q1:Oasis 3是什么?它主要解决什么问题?
A:Oasis 3是由AI研究机构Decart推出的世界模型,专为机器人和自动驾驶汽车的训练设计。其核心目标是弥合“仿真到现实的鸿沟”——即现有虚拟训练环境无法真实还原现实世界复杂性与随机性的问题。通过融合照片级真实感图形与强大物理引擎,Oasis 3能够生成高度逼真且可控的训练场景,帮助自主系统为现实中的各种极端情况做好准备。
Q2:VLA模型的训练为什么这么难?
A:VLA(视觉-语言-动作)模型需要摄取环境数据、理解当前状况并做出反应,对训练数据的质量和多样性要求极高。现有三种训练方式各有局限:远程操控数据质量高但成本极高难以规模化;网络公开视频数量多但内容杂乱、缺乏空间数据;合成数据介于两者之间,但受限于物理引擎的僵化规则,难以模拟真实世界的细微变化和随机事件。
Q3:Oasis 3的技术性能指标是怎样的?
A:Oasis 3运行于CoreWea ve的专用云基础设施之上,与英伟达实体AI生态协同设计,能够以每秒22帧的速度生成512×768×3分辨率的交互式虚拟环境。在响应延迟方面,当自动驾驶车辆改变方向时,视角调整延迟低于200毫秒,满足强化学习的实时性需求。此外,Oasis 3原生支持三摄像头视角,保证多角度的空间与时间一致性,并通过API向开发者开放。