NVIDIA Nemotron 3 Ultra模型评测:优化复杂工作流

2026-06-06阅读 0热度 0
ULTRA

6月5日,NVIDIA正式发布Nemotron 3 Ultra——一款面向高复杂度工作流的开源混合专家(MoE)大模型。总参数量达5500亿,每次推理仅激活550亿参数,设计目标直指长周期、高负载任务中的性能瓶颈与部署成本。技术路线显示,它在保持顶尖精度的前提下,将推理吞吐能力提升至主流开源同类模型的5倍,同时端到端任务执行成本最高降低30%。这一成果背后,依赖的是一套激进的推理优化策略与创新架构。

具体如何实现?模型融合了几项关键技术:首先是Mamba-Transformer混合架构,兼顾长程建模能力与计算效率,支持超长上下文理解;其次是多Token预测(MTP)机制,显著加速文本生成速度;此外还原生适配NVFP4低精度格式,全面兼容各类NVIDIA GPU硬件平台。换言之,这是一次从底层架构到推理层再到硬件适配的系统性升级。同时,NVIDIA同步推出Nemotron 3.5内容安全检测模型与多语言语音识别模型,分别聚焦AI生成内容合规审查与跨语种实时语音转写——补全了从通用大模型到垂直场景的最后一环。

在产业落地方面,Nemotron全系列模型严格遵循OpenMDL-1.1开源许可协议,全面开放模型权重、训练数据集及完整训练配置方案。开发者既可通过Hugging Face直接获取模型资源,也可借助NVIDIA NIM微服务框架或在主流云服务商平台上快速集成。这意味着,无论是研究机构还是企业用户,都能相对便捷地构建兼具安全性与高性能的智能自动化工作流。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策