NVIDIA Blackwell领跑MLPerf训练6.0性能榜单
6 月 16 日消息,
每一次AI模型的突破性进展,都离不开训练环节的扎实落地。训练底层的硬件基础设施,决定了团队迭代效率、可支撑的模型参数规模,以及长时间运行任务的稳定性。伴随模型体量持续膨胀、复杂度逐级攀升,训练基础设施承受的考验也在同步升级。
在最新一轮MLPerf Training 6.0基准测试中——这个被业界公认、经严格同行评审的AI训练性能标尺——NVIDIA Blackwell平台提交了一份极具说服力的成绩单:
- 在所有基准项目中,训练耗时均达到最短
- 最大规模训练:基于NVIDIA Blackwell NVL72系统,扩展至8,192块GPU
- 唯一在所有七个基准项目中全部提交结果的平台
NVIDIA把性能、规模和可靠性整合进同一平台,背后是极致的协同设计工程。这套方案让模型开发者能以更快速度推出前沿模型、压低训练预算,并更早实现投资回报。
性能:每个基准项目均斩获最快成绩
MLPerf Training 6.0新增了两项混合专家(MoE)预训练任务:DeepSeek-V3 671B与GPT-OSS-20B,这直接反映了MoE架构在AI领域的主导地位。NVIDIA平台是唯一一个在所有基准上均提交结果并拿下最快训练时间的。
本轮测试中,NVIDIA分别提交了基于GB200 NVL72和GB300 NVL72机架级系统的成绩。在每个机架系统内部,第五代NVLink交换机将所有72块GPU以高带宽互联,构成统一的计算和内存池——相当于将它们融合成一颗巨型GPU。大规模MoE训练面临的核心通信挑战(所有token需在GPU间路由至正确的专家子网络)与MoE推理如出一辙,而NVLink的高带宽特性恰恰让这种大规模通信变得既快又高效。
NVIDIA还展示了NVFP4训练方法——在严格满足精度要求的前提下,大幅提升大、小规模预训练以及微调任务的性能。NVIDIA持续在不同模型架构上推进低精度训练创新,近期更利用NVFP4预训练了拥有5500亿参数的NVIDIA Nemotron 3 Ultra模型。
GB300 NVL72相对GB200 NVL72性能提升最高达1.6倍:本轮测试中,同等规模下GB300 NVL72比GB200 NVL72快最多1.6倍。背后的驱动力正是Blackwell Ultra的关键能力:更密集的NVFP4计算、更大的内存容量,以及更高的功耗上限让GPU能持续输出峰值性能。
规模:MLPerf训练中最大规模的Blackwell集群
为支撑大规模分布式训练,NVIDIA提供了两套互补的横向扩展网络方案——Quantum InfiniBand和Spectrum-X以太网——让数据中心能根据自身设施灵活搭建大规模集群。
在套件中最大的MoE模型DeepSeek-V3 671B上,NVIDIA用GB200 NVL72系统扩展至8,192块GPU,这是MLPerf训练迄今为止规模最大的Blackwell系统提交。此外,NVIDIA还在Llama 3.1 405B(套件中最大的稠密大语言模型之一)上以5,120块GPU的规模提交了GB200 NVL72的结果。
本轮结果也反映了NVIDIA与合作伙伴在系统架构、网络和软件层面的深度协同工程:
- 微软Azure采用GB200 NVL72系统,将Llama 3.1 405B训练扩展至8,192块GPU,仅用7.07分钟即达到参考质量目标,拿下该项目最快训练时间。
- CoreWea ve利用GB300 NVL72系统(搭配Spectrum-X以太网)在8,192 GPU规模下,以2.02分钟达成DeepSeek-V3 671B的质量目标,同样拿下该项目最快训练时间。
大规模可靠性:专为生产环境设计
在真实生产训练场景中,一次任务可能持续数周甚至数月,涉及数十万块GPU。在此规模下,有效训练吞吐量不仅取决于系统性能,更取决于系统能否稳定、可复现地持续运行。MLPerf Training v6.0的结果已充分展示了NVIDIA平台的性能表现。而在可靠性方面,NVIDIA从两个维度进行了工程化设计:
减少中断:NVIDIA GPU从源头就尽量降低故障率。每块GPU在进入数据中心前,需经过30多道制造测试工序来提前识别潜在缺陷。部署后,平台的可靠性、可用性与可服务性引擎会近乎全芯片地监控运行状态,并具备自愈能力——检测到故障时自动绕过,不中断任务。在网络层面,Spectrum-X以太网能在毫秒级时间内绕过故障链路,保持网络健康,不中断作业。
中断后快速恢复:NVIDIA Resiliency Extension(NVRx)将故障发生后的时间损失降到最低。它覆盖故障检测、恢复和集群健康监控,能自动发现并管理性能不佳的节点,防止它们拖慢整个集群。当某个节点遇到中断时,系统不再重启整个任务,而是从最近的一个检查点(训练状态的快照)恢复,大幅减少等待时间。
基于NVIDIA构建的前沿AI
NVIDIA生态系统的合作伙伴也在本轮积极参与,来自19家组织的成果相当亮眼,包括ASUSTeK、微软Azure、Cisco、CoreWea ve、Dell Technologies、富士通、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、QCT、Scitix、Supermicro和TTA。这些合作伙伴中,许多都在NVIDIA基础设施上运行着最吃力的AI训练任务。
CoreWea ve将NVIDIA基础设施部署在Dell PowerRack系统(搭载Dell PowerEdge服务器)内,承载了多个关键训练任务。Cohere在其North智能体AI平台上,借助GB200 NVL72实现了训练速度3倍提升。Midjourney已经在Blackwell集群上训练了v8图像生成模型,目前正在CoreWea ve上大规模扩展Blackwell Ultra GPU集群,用于训练即将推出的图像和视频模型。
在Google Cloud上,Thinking Machines Lab在GB300 NVL72上获得了相比前代GPU 2倍的训练和推理速度,加速了前沿模型研究和强化学习工作流。
Nebius在其AI云上运行NVIDIA Blackwell和Blackwell Ultra基础设施,帮助Higgsfield将模型训练时间缩减30%,支撑的平台如今已服务2200万用户,每天产生超过600万件AI内容。
更多关于MLPerf Training 6.0结果及背后优化方案的技术细节,可参阅相关技术文档。
