英伟达全球首发全开源全模态物理AI大模型Cosmos 3

2026-06-01阅读 0热度 0
Cosmos

6月1日,英伟达正式发布Cosmos 3——面向物理AI的开放世界基础大模型。该模型采用混合Transformer架构,将视觉推理、世界生成与动作预测统一集成至同一系统。


英伟达将其定位为全球首款全开源全模态大模型,原生支持文本、图像、视频、环境音效及动作内容的理解与生成。物理仿真精度在业内保持领先。更重要的是,它能将物理AI的训练与评估周期从数月压缩至数天——这对研发效率的提升意义重大。

同时,英伟达发起“英伟达宇宙联盟”(NVIDIA Cosmos Coalition),汇聚全球顶尖世界模型研发团队与AI开发者,成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway及Skild AI。目标明确:合力推动下一代世界模型技术演进。

英伟达创始人兼CEO黄仁勋在发布会中指出:“多模态推理语言、视觉与世界模型接连实现突破,物理AI的变革时代即将来临。Cosmos 3系列开源前沿全模态模型,将赋能开发者实现技术跨越,构建能在真实世界中感知、推理、规划并执行动作的机器人、自动驾驶车辆及视觉AI系统。”

物理AI长期面临一个核心挑战:如何让机器人、自动驾驶车辆与视觉智能体,在有限训练数据与碎片化仿真框架下,具备真实场景的泛化能力。Cosmos 3给出的方案,正是针对这一根本难题。

模型采用混合Transformer架构,将推理Transformer与专精生成类Transformer结合。具体流程为:先解析物体交互、运动规律及时空关联关系,再完成视频生成与动作轨迹预测。逻辑链条清晰明确。

训练数据方面,Cosmos 3基于海量多模态物理AI数据集——涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者利用该预训练基础模型搭建自有物理AI系统,所需数据量与成本均可大幅降低。

开发者可将Cosmos 3用作三类工具:

1. 多模态图文大模型,实现跨模态理解与推理;
2. 世界模型/视频基础模型,用于仿真物理环境、预判场景未来状态,支撑模型训练与评估;
3. 世界动作模型主干网络,辅助训练机器人完成各类专项任务。

从评测数据看,Cosmos 3在物理AI主流基准上表现突出。在开源模型范围内,其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中排名第一;动作策略能力领跑RoboLab和RoboArena基准;视觉理解能力位居VANTAGE-Bench和TAR榜单榜首。多项关键指标均获头名,含金量充足。

英伟达还提供多个版本,适配物理AI不同研发阶段:

Cosmos 3 Super:面向机器人与自动驾驶模型的二次训练,追求极致物理精度与生成效果;
Cosmos 3 Nano:数秒内完成高品质视频解析与动作推理;
Cosmos 3 Edge:即将上线,主打边缘端实时推理。

目前Cosmos 3 Super和Nano已正式推出,Edge版即将到来,边缘端实时推理方向值得持续关注。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策