黄仁勋6芯片解密：最强AI超算性能登顶

2026-06-19阅读 0热度 0

刚刚，英伟达创始人兼CEO黄仁勋在CES 2026上完成了2026年的首场主题演讲。黄仁勋又穿着他标志性的皮衣登场了。在1.5小时的密集输出中，他连续官宣了8项重要发布，从芯片到机架再到网络设计，几乎是把整个新代际平台从头到尾翻了个底朝天。在加速计算与AI基础设施这条主线上，英伟达一口气端出了NVIDIA Vera Rubin POD AI超级计算机、NVIDIA Spectrum-X以太网共封装光学器件、NVIDIA推理上下文内存存储平台，以及基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。表面上看是几款硬件新品，但仔细拆解就会发现，英伟达这次是在打造一个从芯片级到系统级的完整闭环。先说说最核心的NVIDIA Vera Rubin POD。它集成了英伟达自研的6大芯片：CPU、GPU、Scale-up网络、Scale-out网络、存储与处理单元，所有部件都是协同设计的。这种全栈自研的好处很明显——既可以满足前沿模型对算力的极致需求，又能有效压低整体计算成本。其中，Vera CPU采用了定制的Olympus核心架构，Rubin GPU则引入了Transformer引擎，NBFP4推理性能高达50PFLOPS，每颗GPU的NVLink带宽也快到了3.6TB/s。它还支持第三代通用机密计算，这是业内第一个机架级TEE方案，实现了CPU与GPU跨域的完整可信执行环境。最关键的是，这些芯片已经回片，英伟达完成了对整个NVIDIA Vera Rubin NVL72系统的验证，合作伙伴也已经开始跑AI模型了，整个生态都在为Vera Rubin的部署做准备。其他几个发布同样值得留意。NVIDIA Spectrum-X以太网共封装光学器件，在电源效率和应用正常运行时间上做了大幅优化；NVIDIA推理上下文内存存储平台，则是重新定义了存储堆栈，核心目标是减少重复计算、提升推理效率；而基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD，更是把大型MoE模型的token成本直接砍到了原来的十分之一。开放模型方面，英伟达也做了扩围，发布了新的模型、数据集和库，包括NVIDIA Nemotron开源模型系列中新增的Agentic RAG模型、安全模型和语音模型，以及适用于所有类型机器人的全新开放模型。不过黄仁勋在演讲中并未展开细讲，更多是作为一个方向性的宣布。物理AI方面，黄仁勋直接抛出了一个判断：物理AI的ChatGPT时刻已经到来。英伟达的全栈技术正在让全球生态通过AI驱动的机器人技术改变行业。英伟达推出了包括全新Alpamayo开源模型组合在内的AI工具库，帮助全球交通行业快速实现安全的L4级自动驾驶。此外，NVIDIA DRIVE自动驾驶平台现已投入生产，搭载于所有全新梅赛德斯-奔驰CLA上，用于L2++级别的AI定义驾驶。 ## 01. 全新AI超级计算机：6款自研芯片，单机架算力达3.6EFLOPS 黄仁勋在演讲中提到了一个核心判断：每10到15年，计算机行业就会迎来一次全面重塑。但这次不一样，两个平台变革同时发生了——从CPU到GPU的硬件迁移，以及从“编程软件”到“训练软件”的范式转换。加速计算与AI正在重构整个计算堆栈，过去十年价值10万亿美元的计算产业，正在进行一场彻底的现代化改造。与此同时，对算力的需求也在急剧飙升。模型的尺寸每年增长10倍，模型用于推理的token数量每年增长5倍，而每个token的价格每年却要降低10倍。这个三角关系，意味着硬件平台必须每年都迭代升级。英伟达的选择是：每年都发布新的计算硬件。黄仁勋透露，Vera Rubin已经全面开启生产。 NVIDIA Vera Rubin POD AI超级计算机的核心，是6款自研芯片：Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9（CX9）智能网卡、BlueField-4 DPU、Spectrum-X 102.4T CPO。逐一说一下每款芯片的核心指标：（1）**Vera CPU**：专为数据移动和智能体处理设计，拥有88个英伟达定制Olympus核心、176个线程的英伟达空间多线程。1.8TB/s的NVLink-C2C支持CPU与GPU之间的统一内存，系统内存达到1.5TB——是Grace CPU的3倍。SOCAMM LPDDR5X内存带宽为1.2TB/s，并支持机架级机密计算，数据处理性能翻倍提升。（2）**Rubin GPU**：引入了Transformer引擎，NVFP4推理性能高达50PFLOPS，是Blackwell GPU的5倍，向后兼容，在保持推理精度的同时提升了BF16/FP4级别的性能；NVFP4训练性能达到35PFLOPS，是Blackwell的3.5倍。Rubin也是首个支持HBM4的平台，HBM4带宽达22TB/s，是上一代的2.8倍，能够满足最苛刻的MoE模型和AI工作负载。（3）**NVLink 6 Switch**：单lane速率提升至400Gbps，采用SerDes技术实现高速信号传输；每颗GPU可实现3.6TB/s的全互连通信带宽，是上一代的2倍，总带宽为28.8TB/s。FP8精度下in-network计算性能达到14.4TFLOPS，支持100%液冷。（4）**NVIDIA ConnectX-9 SuperNIC**：每颗GPU提供1.6Tb/s带宽，针对大规模AI进行了深度优化，具备完全软件定义、可编程、加速的数据路径。（5）**NVIDIA BlueField-4**：800Gbps DPU，用于智能网卡和存储处理器，配备64核Grace CPU，结合ConnectX-9 SuperNIC，用于卸载网络与存储相关的计算任务，同时增强了网络安全能力。计算性能是上一代的6倍，内存带宽达3倍，GPU访问数据存储的速度翻倍。（6）**NVIDIA Vera Rubin NVL72**：在系统层面将所有组件整合成一个单机架处理系统，拥有2万亿颗晶体管，NVFP4推理性能达到3.6EFLOPS，NVFP4训练性能达到2.5EFLOPS。LPDDR5X内存容量达54TB（上一代2.5倍），总HBM4内存达20.7TB（上一代1.5倍），HBM4带宽1.6PB/s（上一代2.8倍），总纵向扩展带宽达到260TB/s，超过全球互联网的总带宽规模。这个系统基于第三代MGX机架设计，计算托盘采用模块化、无主机、无缆化、无风扇设计，组装和维护速度比GB200快18倍。原本需要2小时组装的工作，现在只需5分钟左右。系统本身约80%采用液冷，现在已经是100%液冷。单一系统的重量就达到2吨，加上水冷液后能达到2.5吨。 NVLink Switch托盘还实现了零停机维护与容错——在托盘被移除或部分部署时，机架仍可正常运行。第二代RAS引擎可以进行零停机运行状况检查。这些特性直接提升了系统的运行时间与吞吐率，进一步降低了训练与推理成本，满足了数据中心对高可靠性、高可维护性的极致要求。目前已有超过80家MGX合作伙伴准备支持Rubin NVL72在超大规模网络中的部署。 ## 02. 三大新品爆改AI推理效率：新CPO器件、新上下文存储层、新DGX SuperPOD 除了Vera Rubin POD这个重头戏，英伟达还发布了3款重要新品：NVIDIA Spectrum-X以太网共封装光学器件、NVIDIA推理上下文内存存储平台、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。 **1、NVIDIA Spectrum-X以太网共封装光学器件** 这个新品基于Spectrum-X架构，采用2颗芯片设计，200Gbps SerDes，每颗ASIC可提供102.4Tb/s带宽。交换平台包括一个512端口高密度系统和一个128端口紧凑系统，每个端口的速率都是800Gb/s。 CPO（共封装光学）交换系统带来的收益很直观：5倍的能效提升、10倍的可靠性提升、5倍的应用程序正常运行时间提升。这意味着每天可以处理更多的token，数据中心的总体拥有成本（TCO）自然就压下来了。 **2、NVIDIA推理上下文内存存储平台** 这是一个POD级AI原生存储基础设施，专门用来存储KV Cache。它基于BlueField-4与Spectrum-X Ethernet加速，与NVIDIA Dynamo和NVLink紧密耦合，实现了内存、存储、网络之间的协同上下文调度。平台把上下文作为一等数据类型来处理，最终带来5倍的推理性能和5倍的能效提升。这对多轮对话、RAG、Agentic多步推理这类长上下文应用来说至关重要。这些工作负载高度依赖上下文在整个系统中被高效存储、复用与共享的能力。AI正在从聊天机器人演进为Agentic AI（智能体），会推理、调用工具并长期维护状态，上下文窗口已经扩展到数百万个token。这些上下文保存在KV Cache中，如果每一步都重新计算，GPU时间会被严重浪费，延迟也会大幅增加——所以要存起来。但问题在于：GPU显存虽然快，但太稀缺了；传统网络存储对短期上下文来说效率又太低。AI推理的瓶颈正在从计算转向上下文存储。所以，需要有一个介于GPU与存储之间、专为推理优化的新型内存层。这一层不能再是事后补丁，而必须与网络存储协同设计，以最低的开销移动上下文数据。 NVIDIA推理上下文内存存储平台这个新层级，并不直接存在于主机系统中，而是通过BlueField-4连接到计算设备之外。它的核心优势在于：可以更高效地扩展存储池规模，从而避免重复计算KV Cache。英伟达正在与存储合作伙伴紧密合作，把这个平台引入Rubin平台，让客户能够把它作为完整集成AI基础设施的一部分进行部署。 **3、基于Vera Rubin构建的NVIDIA DGX SuperPOD** 在系统层面，NVIDIA DGX SuperPOD作为大规模AI工厂的部署蓝图，采用8套DGX Vera Rubin NVL72系统，用NVLink 6做纵向扩展网络，用Spectrum-X Ethernet做横向扩展网络，内置NVIDIA推理上下文内存存储平台，并经过了工程化验证。整个系统由NVIDIA Mission Control软件管理，客户可以把它作为交钥匙平台来部署，用更少的GPU完成训练与推理任务。由于在6款芯片、托盘、机架、Pod、数据中心与软件层面实现了极致协同设计，Rubin平台在训练与推理成本上实现了大幅下降。与上一代Blackwell相比，训练相同规模的MoE模型，只需要1/4的GPU数量；在相同延迟下，大型MoE模型的token成本直接降到了原来的十分之一。采用DGX Rubin NVL8系统的NVIDIA DGX SuperPOD也一并发布了。借助Vera Rubin架构，英伟达正在与合作伙伴和客户一起，构建世界上规模最大、最先进、成本最低的AI系统，加速AI的主流化落地。Rubin基础设施将于今年下半年通过CSP与系统集成商提供，微软等企业将成为首批部署者。 ## 03. 开放模型宇宙再扩展：新模型、数据、开源生态的重要贡献者在软件与模型层面，英伟达继续加大了开源投入。OpenRouter等主流开发平台的数据显示，过去一年，AI模型使用量增长了20倍，其中约四分之一的token来自开源模型。 2025年，英伟达成了Hugging Face上开源模型、数据和配方的最大贡献者——发布了650个开源模型和250个开源数据集。其开源模型在多项排行榜中名列前茅。开发者不仅可以直接使用这些开源模型，还可以从中学习、持续训练、扩展数据集，并使用开源工具和文档化技术来构建AI系统。黄仁勋在演讲中提到一个观察：受到Perplexity的启发，他发现Agents应该是多模型、多云和混合云的——这也是Agentic AI系统的基本架构，几乎所有的创业公司都在采用这个模式。借助英伟达提供的开源模型和工具，开发者现在也可以定制自己的AI系统，并使用最前沿的模型能力。目前，英伟达已经将这些框架整合为“蓝图”，并集成到了SaaS平台中。用户可以直接借助蓝图实现快速部署。现场演示的案例中，这套系统可以根据用户意图，自动判断任务应该由本地私有模型还是云前沿模型来处理，也可以调用外部工具（如邮件API、机器人控制接口、日历服务等），还能实现多模态融合，统一处理文本、语音、图像、机器人传感信号等信息。这些复杂的能力在过去几乎不可能实现，但现在已经成为现实。在ServiceNow、Snowflake等企业平台上，类似的能力已经开始落地。 ## 04. 开源Alpha-Mayo模型，让自动驾驶汽车“思考” 英伟达相信，物理AI和机器人最终将成为全球最大的消费电子细分市场。所有能够移动的事物，最终都将实现完全自主，由物理AI驱动。 AI的发展已经经历了感知AI、生成式AI、Agentic AI几个阶段，现在正进入物理AI时代。智能正在走入真实世界，这些模型能够理解物理规律，并直接从物理世界的感知中生成行动。但要实现这个目标，物理AI必须先学会世界的常识——物体恒存、重力、摩擦等等。这些能力的获取将依赖三台计算机：训练计算机（DGX）用来打造AI模型，推理计算机（机器人/车载芯片）用来实时执行，仿真计算机（Omniverse）用来生成合成数据、验证物理逻辑。而其中的核心模型是Cosmos世界基础模型，它把语言、图像、3D与物理规律对齐，支撑起了从仿真到生成训练数据的全链路。物理AI将出现在三类实体中：建筑（如工厂、仓库）、机器人、自动驾驶汽车。黄仁勋认为，自动驾驶将成为物理AI的第一个大规模应用场景。这类系统需要理解现实世界、做出决策并执行动作，对安全性、仿真和数据的要求极高。为此，英伟达发布了Alpha-Mayo，一个由开源模型、仿真工具和物理AI数据集组成的完整体系，专门用于加速安全、基于推理的物理AI开发。这个产品组合为全球车企、供应商、创业公司和研究人员提供了构建L4级自动驾驶系统的基础模块。 Alpha-Mayo是业内第一个真正让自动驾驶汽车“思考”的模型，并且已经开源。它的工作方式是将问题拆解为步骤，对所有可能性进行推理，然后选择最安全的路径。这种推理型任务-行动模型，使自动驾驶系统能够解决此前从未经历过的复杂边缘场景——比如繁忙路口的交通灯突然失效了。 Alpha-Mayo拥有100亿个参数，这个规模足以处理自动驾驶任务，同时又足够轻量，可以运行在为自动驾驶研究人员打造的工作站上。它能接收文本、环视摄像头、车辆历史状态和导航输入，并输出行驶轨迹和推理过程，让乘客理解车辆为何采取某个行动。现场播放的宣传片中，在Alpha-Mayo的驱动下，自动驾驶汽车可以在0介入的情况下自主完成行人避让、预判左转车辆并变道绕开等操作。黄仁勋称，搭载Alpha-Mayo的梅赛德斯奔驰CLA已经投产，并且刚被NCAP评为世界上最安全的汽车。每条代码、芯片、系统都经过了安全认证。该系统将在美国市场上线，今年晚些时候还会推出更强的驾驶能力，包括高速公路脱手驾驶，以及城市环境下的端到端自动驾驶。此外，英伟达还发布了用于训练Alpha-Mayo的部分数据集，以及开源推理模型评估仿真框架Alpha-Sim。开发者可以使用自有数据对Alpha-Mayo进行微调，也可以使用Cosmos生成合成数据，并在真实数据与合成数据结合的基础上训练和测试自动驾驶应用。同时，英伟达宣布NVIDIA DRIVE平台现已投入生产。在机器人领域，波士顿动力、Franka Robotics、Surgical手术机器人、LG电子、NEURA、XRLabs、智元机器人等全球机器人领先企业，均已基于NVIDIA Isaac和GR00T构建其系统。黄仁勋还官宣了与西门子的最新合作——西门子正将英伟达CUDA-X、AI模型和Omniverse集成到其EDA、CAE和数字孪生工具与平台组合中。物理AI将被广泛应用于设计、仿真到生产制造和运营的全流程。 ## 05. 结语：左手拥抱开源，右手将硬件系统做到不可替代随着AI基础设施的重心从训练转向大规模推理，平台竞争已经不再是单点算力的比拼，而是演进到了覆盖芯片、机架、网络与软件的系统工程。目标也变得非常明确：以最低的TCO交付最大的推理吞吐。AI正在进入一个“工厂化运行”的新阶段。英伟达始终非常注重系统级设计。Rubin同时在训练和推理上实现了性能与经济性的双重提升，并且可以作为Blackwell的即插即用替代方案，让客户能够从Blackwell无缝过渡。在平台定位上，英伟达仍然认为训练至关重要——只有快速训练出最先进的模型，推理平台才能真正受益。这也是为什么在Rubin GPU中引入NVFP4训练的原因，进一步提升了性能、降低了TCO。同时，英伟达在纵向扩展和横向扩展架构上都大幅强化了网络通信能力，并把上下文视作关键瓶颈，实现了存储、网络、计算的协同设计。这家AI计算巨头的策略闭环很有意思：一边是大举拥抱开源，让更多的开发者和企业进入生态；另一边则是把硬件、互连、系统设计做得越来越不可替代。持续扩大需求、激励token消耗、推动推理规模化、提供高性价比基础设施——这个闭环正为英伟达构筑起一道越来越坚不可摧的护城河。

黄仁勋6芯片解密：最强AI超算性能登顶

相关阅读

最新教程

最新资讯