英伟达开源模型排行榜:联手宇树助力物理AI机器人学者

2026-06-20阅读 0热度 0
机器人

在Computex 2026上,英伟达密集发布了多项物理AI核心技术。从开源世界模型到机器人参考设计,从自动驾驶推理框架到工厂智能体蓝图,整条技术链覆盖完整。核心目标极为清晰:帮助企业和研究机构将AI部署进支撑现实世界运行的物理系统——无论是工厂产线、晶圆厂,还是自动驾驶与人形机器人。

多家合作伙伴同步展示了落地案例。Cadence正在构建用于芯片设计验证的超级智能体,台积电已将英伟达技术嵌入晶圆制造的多个关键环节,富士康与和硕率先部署了工厂经理智能体。此外,数所顶尖高校和研究所计划采用基于宇树H2 Plus的开放参考人形机器人设计推进研究。

Cosmos 3:开源全模态基础模型,与Omniverse协同进化

世界模型层面,英伟达发布Cosmos 3,一款面向物理AI的开源世界基础模型。该模型是完整的全模态(Omni)模型,底层采用混合Transformer架构——指令、观测数据、动作共同输入自回归Transformer,负责推理与规划,再指导扩散Transformer生成后续内容。

全模态意味着模型能同时处理视频、传感器数据、文本、声音、动作等多种输入输出,与人类多感官协同的认知方式类似。核心目标是为自主系统构建世界模型:既能生成策略训练数据,也能评估策略,甚至直接充当策略本体。

从基准测试看,Cosmos 3在物理AI各项指标上全面领先——视觉推理、图像与世界生成、物理精确性、机器人动作生成,所有类别均位列第一梯队。能力分多个层次:作为世界推理器,可理解视频与文本场景,标注关键信息或做出决策;作为世界模型,可生成物理精确的合成训练数据;作为仿真器,能在闭环中测试机器人策略,展示动作结果并预测后续状态;作为世界动作模型,可针对不同机器人形态进行后训练,直接生成动作指令。

基于Cosmos 3,开发者可微调出自己的GR00T或其他模型。随着推理速度持续提升,其覆盖场景也在扩展——从离线数据生成、策略评估,到边缘端实时部署,均可应用。

不过也需指出,对于小尺度精细操作场景,例如电子元器件组装,当前世界模型仍难以完全满足物理精度要求。原因是相关预训练数据不足,缺乏充分标注,未能覆盖所需技能和交互类型的全域。因此,Omniverse与Cosmos需要协同进化:Omniverse提供物理基础,生成现实世界难以获取的仿真场景,反向供给Cosmos训练;随时间推移,Cosmos逐步积累所需物理动力学知识。两者是互相喂养、螺旋上升的关系。

Agile Robots、Black Forest Labs、Generalist、Ltx、Runway、Skild AI等全球顶尖AI实验室已加入Cosmos联盟,共同推动下一代模型研发。

开源面向物理AI的智能体工具与Skills,赋能EDA公司构建芯片设计智能体

英伟达也在铺开智能体产品线。一个智能体需要模型、Harness、工具、Skills和运行时。英伟达的物理AI平台Omniverse、Metropolis、Drive、Alpamayo、Isaac和Cosmos,现已具备智能体就绪能力。Jetson平台同样如此——开发者可通过一条命令部署NemoClaw,通过Jetson AI Lab运行最新开源模型,还能使用新的Jetson Linux定制、内存优化和模型基准测试Skills工具。换言之,任何人都能成为Jetson开发者,将智能体部署到边缘端。

英伟达在GitHub上开源了数十种新Skills和工具,帮助开发者利用编程智能体充分发挥CUDA-X加速数据生成、仿真和训练基础设施库的能力。

一个基本事实是:任何产品在制造前,都必须经过仿真和验证。编排这些工作流可能耗时数小时、数天甚至数月,严重制约设计探索效率。英伟达正在协助Cadence、达索系统、西门子、新思科技等企业,基于NemoClaw平台构建安全、自主的工程师智能体。

以具体案例为例:Cadence正在构建用于芯片设计的超级智能体,可自动化RTL验证循环,实现40倍速度提升——原本数周的工作压缩到数小时。英伟达自己的芯片设计团队也会大量引入这类工程师智能体。

台积电利用英伟达技术优化计算光刻、工控、检测、晶圆厂运营

全球最大晶圆代工厂台积电,不仅是英伟达近三十年的合作伙伴,同时也是其客户。台积电在计算光刻、模拟仿真、工艺控制、检测、晶圆厂运营优化等环节,运用英伟达的加速计算和AI技术,提升自身技术与制造能力。

几个实例:芯片设计领域,用于光刻的GPU加速库cuLitho,将计算资源从超40000个CPU压缩至仅需350块Blackwell GPU,成本和周期时间削减近一半。材料科学领域,GPU加速的电子结构模拟库cuEST,平均可将半导体材料设计的化学模拟速度提升50倍,新材料发现从数天缩短至数小时。在晶圆厂,cuML机器学习库帮助台积电提升算法运行速度,显著降低工艺偏差。台积电还使用英伟达Metropolis平台和TAO工具包,将AI模型引入缺陷检测环节,通过视觉AI提高纳米级缺陷的检测能力。此外,台积电也在探索用NVIDIA Omniverse库构建虚拟晶圆厂环境,提高规划效率。

打造“AI工厂经理”,顶层智能体统管工厂内各类智能体

工厂内部,物理AI智能体已开始扮演新一代运营经理的角色。但现实是,大多数工厂仍在运行孤立的系统,停机导致制造商每年损失约1.5万亿美元。

英伟达推出的工厂运营蓝图(Factory Operations Blueprint,FOX),是一个构建和部署工厂经理智能体的参考设计。这些智能体连接孤立的工业系统,协调质量检测、流程管理和物料搬运等专项智能体团队。本质上是“智能体的智能体”架构——顶层智能体统一管理工厂内运行的各种子智能体,覆盖质量检测、流程合规验证、工人安全等场景。

举例来说,传统设备管理方式下,多个子智能体各自监控设备告警,但无法进行根本原因分析。工厂经理智能体则可整合多源数据开展根因分析,联动系统加速告警响应,查询数据库调取操作规程并制定行动方案——将原本孤立、低效的流程自动化串联起来。

富士康与和硕是首批构建FOX智能体的企业。根据公布的数据,FOX帮助它们将问题解决速度提升了70%,设备正常运行时间提升了30%。

开源自动驾驶推理模型、自动驾驶策略训练框架

机器人时代已到来。自动驾驶汽车是全球首个实现量产和大规模落地的机器人形态,英伟达在这一领域已深耕超过十年。

NVIDIA DRIVE是面向全类别自动驾驶汽车的端到端平台,包含用于推理的Alpamayo开放模型、用于仿真和数据生成的Omniverse、Newton和Cosmos,以及用于车载计算的Drive AGX。核心是DRIVE Hyperion——一个基于NVIDIA Halos安全系统构建的L4级自动驾驶出租车模块化硬件平台。Hyperion平台在架构层面已具备L4级能力,冗余电源、冗余转向、冗余计算、满足L4要求的传感器配置均已到位。

在Hyperion平台层面,英伟达通过架构设计实现冗余:一台计算机故障,备用计算机会接管;传感器采用多元冗余设计,摄像头失效时有雷达和激光雷达作为备份,且备用ECU拥有完整的360度视野,确保车辆始终能将乘客安全送达。软件层面,英伟达采用混合技术栈——Alpamayo模型与经典Halos技术栈并行运行,形成多样性冗余。对于希望自建技术栈的客户,英伟达也提供Halos安全分析服务。

Alpamayo是一款让汽车能够“思考”的自动驾驶模型,不到6个月就从Hugging Face获得近50万次下载,还获得了Computex最佳选择奖(车载技术与智能座舱类别)。新推出的Alpamayo 2 Super是一款开放自动驾驶推理模型,拥有320亿参数,架构更灵活,支持多种摄像头配置(双摄、四摄、六摄),也可接入导航输入,覆盖推理、规划、标注和评估。

该模型有两个重要定位:一是作为教师模型,用于蒸馏车载推理模型;二是部分客户考虑将其作为遥操作模型(即远程接管模型),部署在后端,从而拓展应用场景,同时提升性能与功能性。

英伟达还推出一个用于自动驾驶策略训练的开源闭环强化学习框架AlpaGym,模型在其中以动作影响后续状态的方式进行闭环仿真训练。Alpamayo 2 Super与AlpaGym共同为开发者提供了迈向L4级自动驾驶的开放基础。另有OmniDreams——一个基于Cosmos构建的、用于闭环自动驾驶场景生成的动作条件世界模型,可大规模生成稀有、逼真的长尾驾驶场景。

联合宇树科技,降低人形机器人研究门槛

NVIDIA Isaac GR00T是一个开放式机器人开发平台,提供从机器人计算到开放模型、仿真器和数据管道的全栈支持。当前人形机器人开发流程极为碎片化,针对这一痛点,英伟达推出一套全新的端到端人形机器人工作流,让团队可在数小时内完成原本需要数周的部署。

整个流程涵盖:在Isaac Lab中搭建仿真环境,在Isaac Teleop开源框架中采集人类示范数据,借助Omniverse和Cosmos生成数据,训练GR00T模型,在Isaac Lab Arena中评估策略,通过Isaac ROS在Jetson Thor上开发和部署经过验证的Skills。每个模块均可独立使用——可采用英伟达技术栈,也可自带组件。

在人形机器人底层软件和固件层面,英伟达正与OEM生态伙伴合作,确保整个系统从上至下完成验证,并符合严格的网络安全标准。具体措施包括加密签名驱动、明确的版本回滚机制、气隙隔离设计等,确保设备上的数据和遥测数据在未经开发者许可的情况下不会离开设备。这与自动驾驶汽车所适用的安全标准体系一致。

目前最大的缺口是机器人本体本身。能够胜任真实工作的前沿人形机器人,几乎无法触达大多数研究者——要么成本过高,仅顶尖AI实验室才能负担最先进的硬件;要么硬件本身并非为工业规模任务而设计。英伟达推出的NVIDIA Isaac GR00T开放参考人形机器人设计,就是为了打破这个瓶颈。

该参考设计集成了宇树H2 Plus人形机器人、Sharpa Wa ve五指灵巧手、英伟达Jetson Thor处理器以及Isaac GR00T软件和工作流程,预装GR00T 1.7人形机器人模型,开箱即用。机器人身高约1.83米,体重约68公斤,专为工业任务设计,内置RGB头部和腕部传感器,具备人类尺度的运动和操作能力,支持高精度感知与精细化灵巧操作,机械臂峰值有效载荷为15公斤。

具体来说:宇树H2人形机器人底盘身高近6英尺,重150磅,全身31个自由度;双Sharpa Wa ve触觉五指灵巧手可实现22个自由度的灵巧操作,身体和手部总计75个自由度;多视角传感器包括头戴式立体摄像头(水平140度,垂直102度)、用于近距离操作的腕部摄像头,以及用于运动跟踪的惯性测量单元;机械臂扭矩高达120N·m,腿部扭矩达360N·m,机械臂额定有效载荷7公斤,峰值有效载荷15公斤;板载计算来自英伟达Jetson AGX Thor T5000,配备Blackwell GPU,FP4 AI性能达2070TFLOPS,14核Arm CPU,128GB统一内存,功率范围40至130瓦;支持以太网、Wi-Fi 6、蓝牙5.2、USB连接,配备麦克风和扬声器用于语音交互;电池容量15Ah(0.972kWh),续航约3小时;带有远程紧急停止功能。

宇树科技已公布Isaac GR00T参考人形机器人的全身配置:

该平台原生兼容上述数据与部署工作流,目标是将前沿机器人研究交到全球高校研究者手中。斯坦福大学、苏黎世联邦理工学院、加州大学圣地亚哥分校和艾伦人工智能研究所均已计划采用该平台开展研究。今年年底,参考人形机器人将由宇树科技提供。此外,NVIDIA Isaac GR00T开发者平台还将支持宇树G1人形机器人,针对G1的参考工作流程预计很快将在GitHub和Hugging Face上开放。

参考人形机器人初期版本结合Isaac ROS机器人操作系统,不会采用Holoscan Sensor Bridge,但英伟达正在研究如何将Holoscan的实时确定性和安全特性引入人形机器人技术栈。

持续降低物理AI应用门槛,巩固生态护城河

从这波发布可以看到几个趋势:智能体正在向物理世界的生产环节渗透,并且越来越倾向于“智能体管智能体”的多智能体协同架构落地;同时,“云端训练、边缘推理”的分工日益成熟,本地算力已能分担不少让机器人不依赖联网也能完成的复杂任务——这是物理AI大规模部署的必要条件。

大模型可通过海量互联网数据训练,但现实世界是无限且不可预测的。物理AI的构建仍面临重重挑战——要训练出具有鲁棒性和泛化能力的端到端策略模型,仅靠真实世界的数据远远不够,还需要大量训练数据和多样化的环境、物体和任务。

英伟达这一系列动作,都在进一步降低物理AI的应用门槛和基础设施成本。通过将每一环节开源或标准化,从模型研发到完整工作流都有了丰富的工具和参考教程。这无疑会进一步巩固英伟达在AI领域的生态护城河。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策