英伟达Nemotron 3 Ultra开源模型性能榜首
英伟达在Computex上预告的Nemotron 3 Ultra现已正式发布。昨日,这款搭载5500亿参数的开源混合专家模型(MoE)同步登陆Hugging Face、ModelScope、OpenRouter(提供免费端点)及build.nvidia.com等多个平台。
核心架构与技术特性
Nemotron 3 Ultra延续了Nemotron 3家族的设计基因,融合潜在混合专家(Latent MoE)与Mamba 2架构。尽管总参数达5500亿,但推理时仅激活550亿参数。这种设计并非单纯追求规模,而是强调计算效率与性能的平衡。
其上下文窗口高达100万Token,足以处理超长文档或复杂历史对话,无需频繁回溯上下文即可维持连贯性。
专为长时智能体任务优化
英伟达在发布说明中明确指出,Nemotron 3 Ultra的架构专为“长时智能体”场景设计。所谓长时智能体,即需要持续规划、频繁调用工具、动态调整策略的AI工作流。这类任务对模型的推理速度和连续决策能力要求极高——既要深度思考,又要快速响应。
官方强调推理速度显著提升。在当前各厂商争相优化Token成本的背景下,英伟达给出一个颇具竞争力的数据:与同等性能水平的模型相比,Nemotron 3 Ultra可为用户节省最高30%的计算开销。
性能表现与竞品对比
横向对比来看,情况较为复杂。与Kimi-K2.6、Qwen-3.5、GML-5.1等直接竞品相比,Nemotron 3 Ultra在推理速度测试中拔得头筹,同时也是目前表现最突出的美国开源权重模型。然而在大多数基准测试中,它与上述几款中国模型的分数仍存在差距,尽管差距不算悬殊,但确实处于落后位置。
特别值得注意的是GDPVal基准——这是评估模型执行真实世界经济价值任务的硬核指标。Nemotron 3 Ultra的NVFP4量化版本得分为47.9%,而OpenAI的GPT-5.5则达到84.9%,差距相当明显。
然而,基准测试并不能全面反映实际能力。英伟达指出,Nemotron 3 Ultra真正的优势在于“自主工作流中的编排调度与最高难度推理任务”,例如长时间编程会话中的架构决策、跨数百个研究来源的综合分析,或涉及数千个相互依赖约束条件的验证工作。这类场景的复杂性远超简单基准测试所能衡量。
训练数据与开放协议
Nemotron 3 Ultra的训练基于精心筛选的14.8万亿Token数据集,支持12种自然语言(含中文)及43种编程语言。目前模型权重、训练数据集与训练配方均已开放,采用OpenMDW-1.1许可协议。
Q&A
Q1:Nemotron 3 Ultra的5500亿参数是否会全部激活?
A:不会。模型采用混合专家(MoE)与潜在混合专家架构,实际推理时仅激活550亿参数。类比而言,如同一个拥有5500人编制的公司,每个项目只派出最核心的550人团队,既维持整体能力又控制运算开销。
Q2:Nemotron 3 Ultra与GPT-5.5对比差距如何?
A:确实存在显著差距。在GDPVal基准上,Nemotron 3 Ultra的NVFP4量化版本得分为47.9%,GPT-5.5为84.9%。但英伟达强调,该模型的长板体现在长时自主工作流、复杂编程及多源研究综合等高难度场景,单凭基准测试结果下结论可能不够全面。
Q3:Nemotron 3 Ultra支持哪些语言?可通过哪些渠道使用?
A:支持12种自然语言及43种编程语言。目前已上线Hugging Face、ModelScope、OpenRouter(提供免费端点)及build.nvidia.com等平台。模型权重、数据集及训练配方全部开放,遵循OpenMDW-1.1许可协议。
