英伟达全球首发全开源全模态物理AI大模型Cosmos 3

2026-06-01阅读 0热度 0

Cosmos

6月1日，英伟达正式发布Cosmos 3——面向物理AI的开放世界基础大模型。该模型采用混合Transformer架构，将视觉推理、世界生成与动作预测统一集成至同一系统。

英伟达将其定位为全球首款全开源全模态大模型，原生支持文本、图像、视频、环境音效及动作内容的理解与生成。物理仿真精度在业内保持领先。更重要的是，它能将物理AI的训练与评估周期从数月压缩至数天——这对研发效率的提升意义重大。

同时，英伟达发起“英伟达宇宙联盟”（NVIDIA Cosmos Coalition），汇聚全球顶尖世界模型研发团队与AI开发者，成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway及Skild AI。目标明确：合力推动下一代世界模型技术演进。

英伟达创始人兼CEO黄仁勋在发布会中指出：“多模态推理语言、视觉与世界模型接连实现突破，物理AI的变革时代即将来临。Cosmos 3系列开源前沿全模态模型，将赋能开发者实现技术跨越，构建能在真实世界中感知、推理、规划并执行动作的机器人、自动驾驶车辆及视觉AI系统。”

物理AI长期面临一个核心挑战：如何让机器人、自动驾驶车辆与视觉智能体，在有限训练数据与碎片化仿真框架下，具备真实场景的泛化能力。Cosmos 3给出的方案，正是针对这一根本难题。

模型采用混合Transformer架构，将推理Transformer与专精生成类Transformer结合。具体流程为：先解析物体交互、运动规律及时空关联关系，再完成视频生成与动作轨迹预测。逻辑链条清晰明确。

训练数据方面，Cosmos 3基于海量多模态物理AI数据集——涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者利用该预训练基础模型搭建自有物理AI系统，所需数据量与成本均可大幅降低。

开发者可将Cosmos 3用作三类工具：

1. 多模态图文大模型，实现跨模态理解与推理；
2. 世界模型/视频基础模型，用于仿真物理环境、预判场景未来状态，支撑模型训练与评估；
3. 世界动作模型主干网络，辅助训练机器人完成各类专项任务。

从评测数据看，Cosmos 3在物理AI主流基准上表现突出。在开源模型范围内，其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中排名第一；动作策略能力领跑RoboLab和RoboArena基准；视觉理解能力位居VANTAGE-Bench和TAR榜单榜首。多项关键指标均获头名，含金量充足。

英伟达还提供多个版本，适配物理AI不同研发阶段：

Cosmos 3 Super：面向机器人与自动驾驶模型的二次训练，追求极致物理精度与生成效果；
Cosmos 3 Nano：数秒内完成高品质视频解析与动作推理；
Cosmos 3 Edge：即将上线，主打边缘端实时推理。

目前Cosmos 3 Super和Nano已正式推出，Edge版即将到来，边缘端实时推理方向值得持续关注。

英伟达全球首发全开源全模态物理AI大模型Cosmos 3

相关阅读

最新教程

最新资讯