NVIDIA Blackwell领跑MLPerf训练6.0性能榜单

2026-06-17阅读 0热度 0

Blackwell

6 月 16 日消息，

每一次AI模型的突破性进展，都离不开训练环节的扎实落地。训练底层的硬件基础设施，决定了团队迭代效率、可支撑的模型参数规模，以及长时间运行任务的稳定性。伴随模型体量持续膨胀、复杂度逐级攀升，训练基础设施承受的考验也在同步升级。

在最新一轮MLPerf Training 6.0基准测试中——这个被业界公认、经严格同行评审的AI训练性能标尺——NVIDIA Blackwell平台提交了一份极具说服力的成绩单：

在所有基准项目中，训练耗时均达到最短
最大规模训练：基于NVIDIA Blackwell NVL72系统，扩展至8,192块GPU
唯一在所有七个基准项目中全部提交结果的平台

NVIDIA把性能、规模和可靠性整合进同一平台，背后是极致的协同设计工程。这套方案让模型开发者能以更快速度推出前沿模型、压低训练预算，并更早实现投资回报。

性能：每个基准项目均斩获最快成绩

MLPerf Training 6.0新增了两项混合专家（MoE）预训练任务：DeepSeek-V3 671B与GPT-OSS-20B，这直接反映了MoE架构在AI领域的主导地位。NVIDIA平台是唯一一个在所有基准上均提交结果并拿下最快训练时间的。

本轮测试中，NVIDIA分别提交了基于GB200 NVL72和GB300 NVL72机架级系统的成绩。在每个机架系统内部，第五代NVLink交换机将所有72块GPU以高带宽互联，构成统一的计算和内存池——相当于将它们融合成一颗巨型GPU。大规模MoE训练面临的核心通信挑战（所有token需在GPU间路由至正确的专家子网络）与MoE推理如出一辙，而NVLink的高带宽特性恰恰让这种大规模通信变得既快又高效。

NVIDIA还展示了NVFP4训练方法——在严格满足精度要求的前提下，大幅提升大、小规模预训练以及微调任务的性能。NVIDIA持续在不同模型架构上推进低精度训练创新，近期更利用NVFP4预训练了拥有5500亿参数的NVIDIA Nemotron 3 Ultra模型。

GB300 NVL72相对GB200 NVL72性能提升最高达1.6倍：本轮测试中，同等规模下GB300 NVL72比GB200 NVL72快最多1.6倍。背后的驱动力正是Blackwell Ultra的关键能力：更密集的NVFP4计算、更大的内存容量，以及更高的功耗上限让GPU能持续输出峰值性能。

规模：MLPerf训练中最大规模的Blackwell集群

为支撑大规模分布式训练，NVIDIA提供了两套互补的横向扩展网络方案——Quantum InfiniBand和Spectrum-X以太网——让数据中心能根据自身设施灵活搭建大规模集群。

在套件中最大的MoE模型DeepSeek-V3 671B上，NVIDIA用GB200 NVL72系统扩展至8,192块GPU，这是MLPerf训练迄今为止规模最大的Blackwell系统提交。此外，NVIDIA还在Llama 3.1 405B（套件中最大的稠密大语言模型之一）上以5,120块GPU的规模提交了GB200 NVL72的结果。

本轮结果也反映了NVIDIA与合作伙伴在系统架构、网络和软件层面的深度协同工程：

微软Azure采用GB200 NVL72系统，将Llama 3.1 405B训练扩展至8,192块GPU，仅用7.07分钟即达到参考质量目标，拿下该项目最快训练时间。
CoreWea ve利用GB300 NVL72系统（搭配Spectrum-X以太网）在8,192 GPU规模下，以2.02分钟达成DeepSeek-V3 671B的质量目标，同样拿下该项目最快训练时间。

大规模可靠性：专为生产环境设计

在真实生产训练场景中，一次任务可能持续数周甚至数月，涉及数十万块GPU。在此规模下，有效训练吞吐量不仅取决于系统性能，更取决于系统能否稳定、可复现地持续运行。MLPerf Training v6.0的结果已充分展示了NVIDIA平台的性能表现。而在可靠性方面，NVIDIA从两个维度进行了工程化设计：

减少中断：NVIDIA GPU从源头就尽量降低故障率。每块GPU在进入数据中心前，需经过30多道制造测试工序来提前识别潜在缺陷。部署后，平台的可靠性、可用性与可服务性引擎会近乎全芯片地监控运行状态，并具备自愈能力——检测到故障时自动绕过，不中断任务。在网络层面，Spectrum-X以太网能在毫秒级时间内绕过故障链路，保持网络健康，不中断作业。

中断后快速恢复：NVIDIA Resiliency Extension（NVRx）将故障发生后的时间损失降到最低。它覆盖故障检测、恢复和集群健康监控，能自动发现并管理性能不佳的节点，防止它们拖慢整个集群。当某个节点遇到中断时，系统不再重启整个任务，而是从最近的一个检查点（训练状态的快照）恢复，大幅减少等待时间。

基于NVIDIA构建的前沿AI

NVIDIA生态系统的合作伙伴也在本轮积极参与，来自19家组织的成果相当亮眼，包括ASUSTeK、微软Azure、Cisco、CoreWea ve、Dell Technologies、富士通、Giga Computing、Google Cloud、Hewlett Packard Enterprise、Inventec、Krai、Lambda、Nebius、Netweb Technologies India Ltd.、QCT、Scitix、Supermicro和TTA。这些合作伙伴中，许多都在NVIDIA基础设施上运行着最吃力的AI训练任务。

CoreWea ve将NVIDIA基础设施部署在Dell PowerRack系统（搭载Dell PowerEdge服务器）内，承载了多个关键训练任务。Cohere在其North智能体AI平台上，借助GB200 NVL72实现了训练速度3倍提升。Midjourney已经在Blackwell集群上训练了v8图像生成模型，目前正在CoreWea ve上大规模扩展Blackwell Ultra GPU集群，用于训练即将推出的图像和视频模型。

在Google Cloud上，Thinking Machines Lab在GB300 NVL72上获得了相比前代GPU 2倍的训练和推理速度，加速了前沿模型研究和强化学习工作流。

Nebius在其AI云上运行NVIDIA Blackwell和Blackwell Ultra基础设施，帮助Higgsfield将模型训练时间缩减30%，支撑的平台如今已服务2200万用户，每天产生超过600万件AI内容。

更多关于MLPerf Training 6.0结果及背后优化方案的技术细节，可参阅相关技术文档。

NVIDIA Blackwell领跑MLPerf训练6.0性能榜单

性能：每个基准项目均斩获最快成绩

规模：MLPerf训练中最大规模的Blackwell集群

大规模可靠性：专为生产环境设计

基于NVIDIA构建的前沿AI

相关阅读

最新教程

最新资讯