英伟达Nemotron 3 Ultra开源模型性能榜首

2026-06-12阅读 0热度 0

ULTRA

英伟达在Computex上预告的Nemotron 3 Ultra现已正式发布。昨日，这款搭载5500亿参数的开源混合专家模型（MoE）同步登陆Hugging Face、ModelScope、OpenRouter（提供免费端点）及build.nvidia.com等多个平台。

核心架构与技术特性

Nemotron 3 Ultra延续了Nemotron 3家族的设计基因，融合潜在混合专家（Latent MoE）与Mamba 2架构。尽管总参数达5500亿，但推理时仅激活550亿参数。这种设计并非单纯追求规模，而是强调计算效率与性能的平衡。

其上下文窗口高达100万Token，足以处理超长文档或复杂历史对话，无需频繁回溯上下文即可维持连贯性。

专为长时智能体任务优化

英伟达在发布说明中明确指出，Nemotron 3 Ultra的架构专为“长时智能体”场景设计。所谓长时智能体，即需要持续规划、频繁调用工具、动态调整策略的AI工作流。这类任务对模型的推理速度和连续决策能力要求极高——既要深度思考，又要快速响应。

官方强调推理速度显著提升。在当前各厂商争相优化Token成本的背景下，英伟达给出一个颇具竞争力的数据：与同等性能水平的模型相比，Nemotron 3 Ultra可为用户节省最高30％的计算开销。

性能表现与竞品对比

横向对比来看，情况较为复杂。与Kimi-K2.6、Qwen-3.5、GML-5.1等直接竞品相比，Nemotron 3 Ultra在推理速度测试中拔得头筹，同时也是目前表现最突出的美国开源权重模型。然而在大多数基准测试中，它与上述几款中国模型的分数仍存在差距，尽管差距不算悬殊，但确实处于落后位置。

特别值得注意的是GDPVal基准——这是评估模型执行真实世界经济价值任务的硬核指标。Nemotron 3 Ultra的NVFP4量化版本得分为47.9%，而OpenAI的GPT-5.5则达到84.9%，差距相当明显。

然而，基准测试并不能全面反映实际能力。英伟达指出，Nemotron 3 Ultra真正的优势在于“自主工作流中的编排调度与最高难度推理任务”，例如长时间编程会话中的架构决策、跨数百个研究来源的综合分析，或涉及数千个相互依赖约束条件的验证工作。这类场景的复杂性远超简单基准测试所能衡量。

训练数据与开放协议

Nemotron 3 Ultra的训练基于精心筛选的14.8万亿Token数据集，支持12种自然语言（含中文）及43种编程语言。目前模型权重、训练数据集与训练配方均已开放，采用OpenMDW-1.1许可协议。

Q&A

Q1：Nemotron 3 Ultra的5500亿参数是否会全部激活？

A：不会。模型采用混合专家（MoE）与潜在混合专家架构，实际推理时仅激活550亿参数。类比而言，如同一个拥有5500人编制的公司，每个项目只派出最核心的550人团队，既维持整体能力又控制运算开销。

Q2：Nemotron 3 Ultra与GPT-5.5对比差距如何？

A：确实存在显著差距。在GDPVal基准上，Nemotron 3 Ultra的NVFP4量化版本得分为47.9%，GPT-5.5为84.9%。但英伟达强调，该模型的长板体现在长时自主工作流、复杂编程及多源研究综合等高难度场景，单凭基准测试结果下结论可能不够全面。

Q3：Nemotron 3 Ultra支持哪些语言？可通过哪些渠道使用？

A：支持12种自然语言及43种编程语言。目前已上线Hugging Face、ModelScope、OpenRouter（提供免费端点）及build.nvidia.com等平台。模型权重、数据集及训练配方全部开放，遵循OpenMDW-1.1许可协议。

英伟达Nemotron 3 Ultra开源模型性能榜首

核心架构与技术特性

专为长时智能体任务优化

性能表现与竞品对比

训练数据与开放协议

Q&A

相关阅读

最新教程

最新资讯