NVIDIA Blackwell领跑MLPerf训练6.0性能榜单

2026-06-17阅读 0热度 0
Blackwell

6 月 16 日消息,

Fastest, Largest, Strongest: NVIDIA Blackwell Sweeps MLPerf Training 6.0

每一次AI模型的突破性进展,都离不开训练环节的扎实落地。训练底层的硬件基础设施,决定了团队迭代效率、可支撑的模型参数规模,以及长时间运行任务的稳定性。伴随模型体量持续膨胀、复杂度逐级攀升,训练基础设施承受的考验也在同步升级。

在最新一轮MLPerf Training 6.0基准测试中——这个被业界公认、经严格同行评审的AI训练性能标尺——NVIDIA Blackwell平台提交了一份极具说服力的成绩单:

  • 在所有基准项目中,训练耗时均达到最短
  • 最大规模训练:基于NVIDIA Blackwell NVL72系统,扩展至8,192块GPU
  • 唯一在所有七个基准项目中全部提交结果的平台

NVIDIA把性能、规模和可靠性整合进同一平台,背后是极致的协同设计工程。这套方案让模型开发者能以更快速度推出前沿模型、压低训练预算,并更早实现投资回报。

性能:每个基准项目均斩获最快成绩

MLPerf Training 6.0新增了两项混合专家(MoE)预训练任务:DeepSeek-V3 671B与GPT-OSS-20B,这直接反映了MoE架构在AI领域的主导地位。NVIDIA平台是唯一一个在所有基准上均提交结果并拿下最快训练时间的。

本轮测试中,NVIDIA分别提交了基于GB200 NVL72和GB300 NVL72机架级系统的成绩。在每个机架系统内部,第五代NVLink交换机将所有72块GPU以高带宽互联,构成统一的计算和内存池——相当于将它们融合成一颗巨型GPU。大规模MoE训练面临的核心通信挑战(所有token需在GPU间路由至正确的专家子网络)与MoE推理如出一辙,而NVLink的高带宽特性恰恰让这种大规模通信变得既快又高效。

NVIDIA还展示了NVFP4训练方法——在严格满足精度要求的前提下,大幅提升大、小规模预训练以及微调任务的性能。NVIDIA持续在不同模型架构上推进低精度训练创新,近期更利用NVFP4预训练了拥有5500亿参数的NVIDIA Nemotron 3 Ultra模型。

GB300 NVL72相对GB200 NVL72性能提升最高达1.6倍:本轮测试中,同等规模下GB300 NVL72比GB200 NVL72快最多1.6倍。背后的驱动力正是Blackwell Ultra的关键能力:更密集的NVFP4计算、更大的内存容量,以及更高的功耗上限让GPU能持续输出峰值性能。

规模:MLPerf训练中最大规模的Blackwell集群

为支撑大规模分布式训练,NVIDIA提供了两套互补的横向扩展网络方案——Quantum InfiniBand和Spectrum-X以太网——让数据中心能根据自身设施灵活搭建大规模集群。

在套件中最大的MoE模型DeepSeek-V3 671B上,NVIDIA用GB200 NVL72系统扩展至8,192块GPU,这是MLPerf训练迄今为止规模最大的Blackwell系统提交。此外,NVIDIA还在Llama 3.1 405B(套件中最大的稠密大语言模型之一)上以5,120块GPU的规模提交了GB200 NVL72的结果。

本轮结果也反映了NVIDIA与合作伙伴在系统架构、网络和软件层面的深度协同工程:

  • 微软Azure采用GB200 NVL72系统,将Llama 3.1 405B训练扩展至8,192块GPU,仅用7.07分钟即达到参考质量目标,拿下该项目最快训练时间。
  • CoreWea ve利用GB300 NVL72系统(搭配Spectrum-X以太网)在8,192 GPU规模下,以2.02分钟达成DeepSeek-V3 671B的质量目标,同样拿下该项目最快训练时间。

大规模可靠性:专为生产环境设计

在真实生产训练场景中,一次任务可能持续数周甚至数月,涉及数十万块GPU。在此规模下,有效训练吞吐量不仅取决于系统性能,更取决于系统能否稳定、可复现地持续运行。MLPerf Training v6.0的结果已充分展示了NVIDIA平台的性能表现。而在可靠性方面,NVIDIA从两个维度进行了工程化设计:

减少中断:NVIDIA GPU从源头就尽量降低故障率。每块GPU在进入数据中心前,需经过30多道制造测试工序来提前识别潜在缺陷。部署后,平台的可靠性、可用性与可服务性引擎会近乎全芯片地监控运行状态,并具备自愈能力——检测到故障时自动绕过,不中断任务。在网络层面,Spectrum-X以太网能在毫秒级时间内绕过故障链路,保持网络健康,不中断作业。

中断后快速恢复:NVIDIA Resiliency Extension(NVRx)将故障发生后的时间损失降到最低。它覆盖故障检测、恢复和集群健康监控,能自动发现并管理性能不佳的节点,防止它们拖慢整个集群。当某个节点遇到中断时,系统不再重启整个任务,而是从最近的一个检查点(训练状态的快照)恢复,大幅减少等待时间。

基于NVIDIA构建的前沿AI

NVIDIA生态系统的合作伙伴也在本轮积极参与,来自19家组织的成果相当亮眼,包括ASUSTeK、微软Azure、Cisco、CoreWea ve、Dell Technologies、富士通、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、QCT、Scitix、Supermicro和TTA。这些合作伙伴中,许多都在NVIDIA基础设施上运行着最吃力的AI训练任务。

CoreWea ve将NVIDIA基础设施部署在Dell PowerRack系统(搭载Dell PowerEdge服务器)内,承载了多个关键训练任务。Cohere在其North智能体AI平台上,借助GB200 NVL72实现了训练速度3倍提升。Midjourney已经在Blackwell集群上训练了v8图像生成模型,目前正在CoreWea ve上大规模扩展Blackwell Ultra GPU集群,用于训练即将推出的图像和视频模型。

在Google Cloud上,Thinking Machines Lab在GB300 NVL72上获得了相比前代GPU 2倍的训练和推理速度,加速了前沿模型研究和强化学习工作流。

Nebius在其AI云上运行NVIDIA Blackwell和Blackwell Ultra基础设施,帮助Higgsfield将模型训练时间缩减30%,支撑的平台如今已服务2200万用户,每天产生超过600万件AI内容。

更多关于MLPerf Training 6.0结果及背后优化方案的技术细节,可参阅相关技术文档。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策