英伟达最强开源权重 AI 模型:Nemotron 3 Super 登场,120B 参数、吞吐量飙升 5 倍
英伟达最强开源权重 AI 模型:Nemotron 3 Super 登场,120B 参数、吞吐量飙升 5 倍
3月12日消息一出,AI开发圈又热闹了。就在昨天(3月11日),英伟达正式发布了其全新的开源大模型Nemotron 3 Super,并毫不客气地将其定位为“迄今为止最强大的开源权重模型”。
这里先科普一个关键概念:所谓的“开源权重模型”,究竟意味着什么?简单来说,就是把决定AI模型行为表现的核心参数(也就是“权重”)免费向公众开放。这跟GPT-4这类完全闭源的“黑盒”玩法截然不同,开发者可以直接下载、在自有设备上运行甚至微调这套模型,自主权和控制力大大增强。
那么,这款“最强开源模型”的底气从何而来?首先看规模,Nemotron 3 Super拥有高达1200亿的参数。更巧妙的是其架构——它采用了混合专家(MoE)设计,这意味着在实际推理时,每次只会激活其中的120亿参数。这种设计可不是为了凑数,其核心目标直指当前AI应用的下一个前沿:为大规模、复杂的智能体系统提供动力引擎。
实际的应用案例已经证明了它的价值。Perplexity、Palantir和西门子等行业巨头,早已将其部署到搜索、软件开发、乃至半导体设计等核心工作流中。它展现出的先进推理能力,能够帮助自主智能体高精度地完成既定任务。
这正好切中了当下企业AI应用转型的痛点。当应用重心从简单的聊天机器人转向由多个智能体协同的复杂系统时,两个棘手的瓶颈就出现了:一是“上下文爆炸”,多智能体交互产生的令牌量可能暴增15倍,导致成本失控、任务目标偏离轨道;二是“推理税”,智能体的每一步都需要模型思考,让整个系统又贵又慢。
Nemotron 3 Super的解法相当直接:配备一个长达100万令牌的上下文窗口。这相当于给智能体系统开辟了一个庞大的“工作记忆区”,完整的工作流状态都可以存放在内存里。效果显而易见:既能有效防止任务目标在复杂交互中跑偏,又能大幅削减多步推理带来的成本压力。
在架构与性能的硬指标上,它的提升更为显著。MoE架构将模型吞吐量直接提升了5倍,而准确率更是比前代模型翻了一番。具体来看,其内部的Mamba层负责提升效率,将内存和计算需求压缩了4倍;而Transformer层则专司高级推理任务。
不仅如此,模型还引入了一项名为“潜在MoE”的新技术,能以单个专家的计算成本,同时激活四个专家,效率倍增。再加上多令牌预测的支持,推理速度又提升了3倍。如果运行在英伟达新一代的Blackwell平台上,并以NVFP4精度运算,对比上一代Hopper架构的FP8,不仅内存需求更低,推理速度还能再快上4倍。
英伟达这次的开放策略可谓诚意十足。不仅模型权重遵循宽松许可证开源,连完整的训练“配方”——包括超过10万亿令牌的数据集和详细的评估方法——也一并公开。这种开放性带来的潜力是巨大的:它能一次性吞下整个代码库进行端到端调试,或者瞬间解析数千页的财务报告。
对于开发者而言,获取和使用门槛也尽可能降低了。模型现已通过Hugging Face、谷歌云、甲骨云等渠道提供(AWS和Azure也即将上线)。同时,它也被打包成了NVIDIA NIM微服务,无论是部署在本地数据中心还是云端,都能实现无缝衔接。

