年NVIDIA智能体技能排行榜:智能汽车与机器人物理AI评测
CVPR 2026的聚光灯下,NVIDIA拿出了一套全新的物理AI智能体技能。这套组合拳的目标很明确:让智能汽车、机器人和视觉AI系统的研究人员和开发者,能更快地把想法变成现实。
物理AI研究走到今天,核心挑战其实不在模型本身。更棘手的是,围绕这些模型,需要搭建一整套完整的工作流——从重建现实场景,到生成极端事件,再到训练策略、评估行为,最后快速迭代。而眼下,这些步骤分散在不同工具里,研究人员得自己动手拼凑,实验节奏自然快不起来。
好消息是,NVIDIA刚刚发布了Cosmos 3。这是一款面向物理AI的开放前沿模型,也是全球首个集视觉推理、世界生成和动作生成于一身的多模态模型。在物理AI领域的开放模型排行榜上,它稳稳占据前列。有了Cosmos 3打底,再加上这套新的物理AI技能,以及NVIDIA的各类库和仿真框架,研究人员终于能更顺畅地把模型能力落地为可扩展的端到端工作流。
推动辅助驾驶研究:超越已记录的行驶里程
做辅助驾驶研究的人都有一个共同的体会:真正的难点,在于那些“长尾场景”。罕见的人车交互、异常的路面结构、变化多端的光照,还有各种极端情况。这些场景在真实世界里很难反复采集,可对模型的训练和验证来说,偏偏又不可或缺。
借助NVIDIA推出的辅助驾驶技能,研究人员可以让AI智能体自动完成场景重建工作流,并生成合成场景。神经重建技能,正是把车队收集的原始数据转换成可编辑的3D场景,为仿真和合成数据生成铺路。背后支撑的技术包括NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer以及HiGS加速渲染器,它们共同加速了重建过程、提升了场景的真实度,还支持生成新视角的画面。
对于研究人员来说,可重复的仿真环境非常有价值。它能随意调整各种条件,比较系统之间的响应差异,还能发现那些现实世界数据覆盖不到的故障模式。
NVIDIA AlpaGym 是一个开源闭环强化学习框架,它巧妙地把策略执行、高保真仿真和智能体技能连接在一起,并且能在数千块GPU上大规模扩展。研究人员用它可以完成从环境搭建、策略执行到效果评估的完整流程。另一个工具OmniDreams,则是一个以动作为条件的生成式世界模型,它能根据策略动作实时生成摄像头画面,为仿真循环带来真实感渲染的效果。
在自动驾驶研究方面,NVIDIA还推出了Alpamayo 2 Super,一个拥有320亿参数的视觉-语言-动作推理模型(Reasoning VLA)。它能在整个驾驶堆栈中执行推理、规划和操作,为更安全、可扩展的L4级自动驾驶开发提供了有力支撑。
推动面向现实世界的视觉AI系统发展
视觉AI研究遇到的瓶颈,也很有意思。核心问题是要创建足够多的受控示例,来研究视觉条件、物体状态或时间事件发生变化时,模型的行为会如何改变。无论是零样本异常检测、合成异常生成,还是少样本缺陷识别,这些方向的研究最终都卡在同一个地方——数据不够用。
NVIDIA Metropolis新增的技能,正好瞄准了这个缺口。研究人员和开发者可以利用AI智能体生成包含异常情况的合成视觉场景,还能增强已有数据、进行伪标注。这些技能受益于Cosmos 3的混合Transformer架构——先用推理Transformer分析观测结果,再把指令传给生成模块,从而更高效地扩展基于物理的虚拟世界。
对于构建高精度视觉检测模型的研究人员,缺陷图像生成技能特别实用。它能基于真实图像,在不同表面上创建各种不同的缺陷示例。这个工作流整合了用于仿真的NVIDIA Isaac Sim、Cosmos 3,以及负责编排和视觉语言推理的NVIDIA OSMO,让研究人员可以生成罕见的视觉案例,并评估模型的响应是否正确。
对于视频AI智能体,NVIDIA也做了不少功课。视频搜索与摘要(VSS)的Metropolis Blueprint、NVIDIA TAO以及视频增强技能,能帮助从海量视频数据中提取洞察,微调模型,并让构建和评估循环自动运转。这为研究人员提供了一种可重复性更高的方式来开发具备推理能力的视觉AI智能体——它们能检测事件、推理复杂场景、总结活动,必要时还能发警报。
借助智能体就绪的仿真工作流扩展机器人学习
要让机器人掌握导航或操作这类技能,迭代是关键。研究人员面临的瓶颈,在于很难构建足够多的受控环境和策略推演,来理解机器人在不同任务、场景和本体形态下的行为变化。说实话,这项工作通常意味着大量手动拼接:仿真环境、任务变体、策略训练、评估环节,都得自己一个一个连起来。
借助NVIDIA的机器人开发技能,研究人员可以让AI智能体自动执行场景准备、仿真和机器人学习等阶段的常见开发步骤。这背后依托的是NVIDIA Omniverse库、Isaac Sim以及Isaac Lab框架。在Isaac Sim中,智能体可以帮忙启动仿真会话、创作场景、控制仿真、采集数据并验证环境;Isaac Lab的智能体技能则支持强化学习设置、训练、评估和自定义环境开发。
多项专业技能进一步把工作流延伸到了移动和操作领域。Isaac移动技能支持覆盖场景搜索、USD转换、环境注册、残差强化学习和策略评估的导航工作流,而Isaac Lab中的专用智能体工作流则能帮上从仿真到仿真、从仿真到现实的忙,涉及环境构建、物理调优、调试和分析等多种任务。
在医疗健康机器人领域,Cosmos-H-Surgical-Simulator通过生成逼真的手术机器人数据来训练和评估策略,推动研究向前发展。与传统方法不同,它直接从真实的手术数据中学习,而不是靠人工设计的物理模型,这有助于缩小仿真与现实之间的差距,为自主手术任务的开发创造条件。
Cosmos 3还可以帮助生成合成数据和场景变化,然后配合具身特定行为和环境数据进行后训练,完成从简单的拾取放置到灵巧操作在内的各种任务。
CVPR 上的 NVIDIA 研究中心成果
在CVPR 2026上被接收的论文中,大部分都引用了NVIDIA的技术——GPU、开放模型、仿真框架和CUDA加速库。这些技术早已被全球多家顶尖研究实验室和机构采用,包括卡内基梅隆大学、斯坦福大学、加州大学伯克利分校、清华大学和北京大学。
在6月3日至7日于丹佛举行的CVPR大会上,NVIDIA研究人员展示了涵盖计算机视觉、物理AI、自主系统、神经渲染、生成式AI和机器人领域的最新成果。
NVIDIA在CVPR上的展示还包括几项开放的研究挑战,旨在为物理AI的进展提供明确的衡量标准:
- AI城市挑战赛:面向智慧城市应用的顶级计算机视觉竞赛,今年已经是第十届了。
- 物理AI辅助驾驶推理挑战赛:一个全新的开放基准测试,目标是评估VLA模型使用因果链标签解释驾驶决策的能力。
- AlpaSim闭环端到端驾驶挑战赛:同样是一个全新的开放基准测试,重点是在现实世界重建场景的闭环仿真中测试辅助驾驶策略。
NVIDIA还在通过提供用于训练、微调和评估的数据集,进一步扩张物理AI背后的研究基础设施。NVIDIA物理AI数据集在Hugging Face上的下载量已经超过1500万次,而NVIDIA Isaac GR00T X Embodiment Sim已成为下载量最高的机器人数据集之一。新发布的数据集中包括GRAIL(包含约50小时的人形机器人交互数据),以及六个用于在机器人、物理、数字人、辅助驾驶、仓库安全和空间推理等领域训练Cosmos 3的合成视频数据集。
可用性
NVIDIA物理AI智能体工具与技能已经通过GitHub开放获取。
神经重建、视频增强、缺陷图像生成这些用于合成数据生成的智能体技能与工具,也可以在NVIDIA Brev上以物理AI Launchables的形式试用。这些预配置环境整合了智能体技能和工具,能显著加快合成数据的生成与评估进程。