NVIDIA Nemotron 3 Ultra模型评测：优化复杂工作流

2026-06-06阅读 0热度 0

ULTRA

6月5日，NVIDIA正式发布Nemotron 3 Ultra——一款面向高复杂度工作流的开源混合专家（MoE）大模型。总参数量达5500亿，每次推理仅激活550亿参数，设计目标直指长周期、高负载任务中的性能瓶颈与部署成本。技术路线显示，它在保持顶尖精度的前提下，将推理吞吐能力提升至主流开源同类模型的5倍，同时端到端任务执行成本最高降低30%。这一成果背后，依赖的是一套激进的推理优化策略与创新架构。

具体如何实现？模型融合了几项关键技术：首先是Mamba-Transformer混合架构，兼顾长程建模能力与计算效率，支持超长上下文理解；其次是多Token预测（MTP）机制，显著加速文本生成速度；此外还原生适配NVFP4低精度格式，全面兼容各类NVIDIA GPU硬件平台。换言之，这是一次从底层架构到推理层再到硬件适配的系统性升级。同时，NVIDIA同步推出Nemotron 3.5内容安全检测模型与多语言语音识别模型，分别聚焦AI生成内容合规审查与跨语种实时语音转写——补全了从通用大模型到垂直场景的最后一环。

在产业落地方面，Nemotron全系列模型严格遵循OpenMDL-1.1开源许可协议，全面开放模型权重、训练数据集及完整训练配置方案。开发者既可通过Hugging Face直接获取模型资源，也可借助NVIDIA NIM微服务框架或在主流云服务商平台上快速集成。这意味着，无论是研究机构还是企业用户，都能相对便捷地构建兼具安全性与高性能的智能自动化工作流。

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

NVIDIA Nemotron 3 Ultra模型评测：优化复杂工作流

相关阅读

最新教程

最新资讯