英伟达宇宙联盟发布全开源物理AI大模型Cosmos3
英伟达近日宣布推出面向物理人工智能的开放世界基础大模型——Cosmos3,发布时间为6月1日。这款模型并非小版本迭代,而是全球首个全开源、全模态的物理AI大模型,在单一系统中集成了视觉推理、世界生成与动作预测三大核心能力。过去训练一个物理AI模型,从数据采集到仿真验证往往耗费数月;如今,这一流程有望缩短至几天内完成。这一变革的实际影响,可能远超业内预期。
具身智能领域长期面临一个核心难题:有限的数据规模与碎片化仿真框架导致模型难以在真实环境中实现有效泛化。Cosmos3的解决方案直击痛点。其训练数据集覆盖数十亿条文本、图像、视频、音效与动作轨迹,这种跨模态数据规模使模型能够原生理解和生成多模态内容。关键突破在于物理仿真精度达到业界领先水平——模型生成的物理世界表征已具备高度可信度。
技术架构:双Transformer协同设计
在技术层面,Cosmos3创新性地将推理Transformer与生成Transformer融合。模型首先深度解析物体交互规律、运动状态与时空关联,完成这一“思考”阶段后,再精准执行视频生成与动作轨迹预测。这一架构带来了显著优势:强大的多模态图文理解能力、物理环境仿真预判能力,以及为机器人专项任务生成动作策略的能力。评测结果佐证了这一点——在Artificial Analysis、Physics-IQ、RoboLab等主流物理AI基准中,Cosmos3在开源模型类别中均排名第一。
版本矩阵:适配不同研发阶段的工具箱
为满足不同研发阶段的需求,英伟达此次推出了多个版本。追求极致精度的Cosmos3Super面向机器人与自动驾驶模型的二次训练,适合对数据质量要求严苛的场景;而Cosmos3Nano走轻量化路线,可在数秒内完成高品质视频解析与动作推理,适合快速迭代验证。这两个版本目前已正式上线。此外,主打边缘端实时推理的Cosmos3Edge也已列入发布计划。
生态共建:英伟达宇宙联盟成立
伴随模型发布,英伟达联合Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI等全球顶尖世界模型研发团队,共同发起“英伟达宇宙联盟”(NVIDIA Cosmos Coalition)。黄仁勋在发布会上指出,多模态推理与世界模型的接连突破标志着物理人工智能的变革窗口已经打开。这一表态背后是更务实的战略考量:通过开源前沿模型,英伟达希望助力全球开发者实现技术跃迁,最终构建出能在现实世界中感知、推理并执行动作的下一代智能体系统。
