黄仁勋6芯片解密:最强AI超算性能登顶 2026-06-19阅读 0热度 0 ai 刚刚,英伟达创始人兼CEO黄仁勋在CES 2026上完成了2026年的首场主题演讲。黄仁勋又穿着他标志性的皮衣登场了。在1.5小时的密集输出中,他连续官宣了8项重要发布,从芯片到机架再到网络设计,几乎是把整个新代际平台从头到尾翻了个底朝天。 在加速计算与AI基础设施这条主线上,英伟达一口气端出了NVIDIA Vera Rubin POD AI超级计算机、NVIDIA Spectrum-X以太网共封装光学器件、NVIDIA推理上下文内存存储平台,以及基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。表面上看是几款硬件新品,但仔细拆解就会发现,英伟达这次是在打造一个从芯片级到系统级的完整闭环。 先说说最核心的NVIDIA Vera Rubin POD。它集成了英伟达自研的6大芯片:CPU、GPU、Scale-up网络、Scale-out网络、存储与处理单元,所有部件都是协同设计的。这种全栈自研的好处很明显——既可以满足前沿模型对算力的极致需求,又能有效压低整体计算成本。 其中,Vera CPU采用了定制的Olympus核心架构,Rubin GPU则引入了Transformer引擎,NBFP4推理性能高达50PFLOPS,每颗GPU的NVLink带宽也快到了3.6TB/s。它还支持第三代通用机密计算,这是业内第一个机架级TEE方案,实现了CPU与GPU跨域的完整可信执行环境。最关键的是,这些芯片已经回片,英伟达完成了对整个NVIDIA Vera Rubin NVL72系统的验证,合作伙伴也已经开始跑AI模型了,整个生态都在为Vera Rubin的部署做准备。 其他几个发布同样值得留意。NVIDIA Spectrum-X以太网共封装光学器件,在电源效率和应用正常运行时间上做了大幅优化;NVIDIA推理上下文内存存储平台,则是重新定义了存储堆栈,核心目标是减少重复计算、提升推理效率;而基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD,更是把大型MoE模型的token成本直接砍到了原来的十分之一。 开放模型方面,英伟达也做了扩围,发布了新的模型、数据集和库,包括NVIDIA Nemotron开源模型系列中新增的Agentic RAG模型、安全模型和语音模型,以及适用于所有类型机器人的全新开放模型。不过黄仁勋在演讲中并未展开细讲,更多是作为一个方向性的宣布。 物理AI方面,黄仁勋直接抛出了一个判断:物理AI的ChatGPT时刻已经到来。英伟达的全栈技术正在让全球生态通过AI驱动的机器人技术改变行业。英伟达推出了包括全新Alpamayo开源模型组合在内的AI工具库,帮助全球交通行业快速实现安全的L4级自动驾驶。此外,NVIDIA DRIVE自动驾驶平台现已投入生产,搭载于所有全新梅赛德斯-奔驰CLA上,用于L2++级别的AI定义驾驶。 ## 01. 全新AI超级计算机:6款自研芯片,单机架算力达3.6EFLOPS 黄仁勋在演讲中提到了一个核心判断:每10到15年,计算机行业就会迎来一次全面重塑。但这次不一样,两个平台变革同时发生了——从CPU到GPU的硬件迁移,以及从“编程软件”到“训练软件”的范式转换。加速计算与AI正在重构整个计算堆栈,过去十年价值10万亿美元的计算产业,正在进行一场彻底的现代化改造。 与此同时,对算力的需求也在急剧飙升。模型的尺寸每年增长10倍,模型用于推理的token数量每年增长5倍,而每个token的价格每年却要降低10倍。这个三角关系,意味着硬件平台必须每年都迭代升级。 英伟达的选择是:每年都发布新的计算硬件。黄仁勋透露,Vera Rubin已经全面开启生产。 NVIDIA Vera Rubin POD AI超级计算机的核心,是6款自研芯片:Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9(CX9)智能网卡、BlueField-4 DPU、Spectrum-X 102.4T CPO。 逐一说一下每款芯片的核心指标: (1)**Vera CPU**:专为数据移动和智能体处理设计,拥有88个英伟达定制Olympus核心、176个线程的英伟达空间多线程。1.8TB/s的NVLink-C2C支持CPU与GPU之间的统一内存,系统内存达到1.5TB——是Grace CPU的3倍。SOCAMM LPDDR5X内存带宽为1.2TB/s,并支持机架级机密计算,数据处理性能翻倍提升。 (2)**Rubin GPU**:引入了Transformer引擎,NVFP4推理性能高达50PFLOPS,是Blackwell GPU的5倍,向后兼容,在保持推理精度的同时提升了BF16/FP4级别的性能;NVFP4训练性能达到35PFLOPS,是Blackwell的3.5倍。Rubin也是首个支持HBM4的平台,HBM4带宽达22TB/s,是上一代的2.8倍,能够满足最苛刻的MoE模型和AI工作负载。 (3)**NVLink 6 Switch**:单lane速率提升至400Gbps,采用SerDes技术实现高速信号传输;每颗GPU可实现3.6TB/s的全互连通信带宽,是上一代的2倍,总带宽为28.8TB/s。FP8精度下in-network计算性能达到14.4TFLOPS,支持100%液冷。 (4)**NVIDIA ConnectX-9 SuperNIC**:每颗GPU提供1.6Tb/s带宽,针对大规模AI进行了深度优化,具备完全软件定义、可编程、加速的数据路径。 (5)**NVIDIA BlueField-4**:800Gbps DPU,用于智能网卡和存储处理器,配备64核Grace CPU,结合ConnectX-9 SuperNIC,用于卸载网络与存储相关的计算任务,同时增强了网络安全能力。计算性能是上一代的6倍,内存带宽达3倍,GPU访问数据存储的速度翻倍。 (6)**NVIDIA Vera Rubin NVL72**:在系统层面将所有组件整合成一个单机架处理系统,拥有2万亿颗晶体管,NVFP4推理性能达到3.6EFLOPS,NVFP4训练性能达到2.5EFLOPS。LPDDR5X内存容量达54TB(上一代2.5倍),总HBM4内存达20.7TB(上一代1.5倍),HBM4带宽1.6PB/s(上一代2.8倍),总纵向扩展带宽达到260TB/s,超过全球互联网的总带宽规模。 这个系统基于第三代MGX机架设计,计算托盘采用模块化、无主机、无缆化、无风扇设计,组装和维护速度比GB200快18倍。原本需要2小时组装的工作,现在只需5分钟左右。系统本身约80%采用液冷,现在已经是100%液冷。单一系统的重量就达到2吨,加上水冷液后能达到2.5吨。 NVLink Switch托盘还实现了零停机维护与容错——在托盘被移除或部分部署时,机架仍可正常运行。第二代RAS引擎可以进行零停机运行状况检查。这些特性直接提升了系统的运行时间与吞吐率,进一步降低了训练与推理成本,满足了数据中心对高可靠性、高可维护性的极致要求。目前已有超过80家MGX合作伙伴准备支持Rubin NVL72在超大规模网络中的部署。 ## 02. 三大新品爆改AI推理效率:新CPO器件、新上下文存储层、新DGX SuperPOD 除了Vera Rubin POD这个重头戏,英伟达还发布了3款重要新品:NVIDIA Spectrum-X以太网共封装光学器件、NVIDIA推理上下文内存存储平台、基于DGX Vera Rubin NVL72的NVIDIA DGX SuperPOD。 **1、NVIDIA Spectrum-X以太网共封装光学器件** 这个新品基于Spectrum-X架构,采用2颗芯片设计,200Gbps SerDes,每颗ASIC可提供102.4Tb/s带宽。交换平台包括一个512端口高密度系统和一个128端口紧凑系统,每个端口的速率都是800Gb/s。 CPO(共封装光学)交换系统带来的收益很直观:5倍的能效提升、10倍的可靠性提升、5倍的应用程序正常运行时间提升。这意味着每天可以处理更多的token,数据中心的总体拥有成本(TCO)自然就压下来了。 **2、NVIDIA推理上下文内存存储平台** 这是一个POD级AI原生存储基础设施,专门用来存储KV Cache。它基于BlueField-4与Spectrum-X Ethernet加速,与NVIDIA Dynamo和NVLink紧密耦合,实现了内存、存储、网络之间的协同上下文调度。平台把上下文作为一等数据类型来处理,最终带来5倍的推理性能和5倍的能效提升。 这对多轮对话、RAG、Agentic多步推理这类长上下文应用来说至关重要。这些工作负载高度依赖上下文在整个系统中被高效存储、复用与共享的能力。AI正在从聊天机器人演进为Agentic AI(智能体),会推理、调用工具并长期维护状态,上下文窗口已经扩展到数百万个token。这些上下文保存在KV Cache中,如果每一步都重新计算,GPU时间会被严重浪费,延迟也会大幅增加——所以要存起来。 但问题在于:GPU显存虽然快,但太稀缺了;传统网络存储对短期上下文来说效率又太低。AI推理的瓶颈正在从计算转向上下文存储。所以,需要有一个介于GPU与存储之间、专为推理优化的新型内存层。这一层不能再是事后补丁,而必须与网络存储协同设计,以最低的开销移动上下文数据。 NVIDIA推理上下文内存存储平台这个新层级,并不直接存在于主机系统中,而是通过BlueField-4连接到计算设备之外。它的核心优势在于:可以更高效地扩展存储池规模,从而避免重复计算KV Cache。英伟达正在与存储合作伙伴紧密合作,把这个平台引入Rubin平台,让客户能够把它作为完整集成AI基础设施的一部分进行部署。 **3、基于Vera Rubin构建的NVIDIA DGX SuperPOD** 在系统层面,NVIDIA DGX SuperPOD作为大规模AI工厂的部署蓝图,采用8套DGX Vera Rubin NVL72系统,用NVLink 6做纵向扩展网络,用Spectrum-X Ethernet做横向扩展网络,内置NVIDIA推理上下文内存存储平台,并经过了工程化验证。整个系统由NVIDIA Mission Control软件管理,客户可以把它作为交钥匙平台来部署,用更少的GPU完成训练与推理任务。 由于在6款芯片、托盘、机架、Pod、数据中心与软件层面实现了极致协同设计,Rubin平台在训练与推理成本上实现了大幅下降。与上一代Blackwell相比,训练相同规模的MoE模型,只需要1/4的GPU数量;在相同延迟下,大型MoE模型的token成本直接降到了原来的十分之一。 采用DGX Rubin NVL8系统的NVIDIA DGX SuperPOD也一并发布了。借助Vera Rubin架构,英伟达正在与合作伙伴和客户一起,构建世界上规模最大、最先进、成本最低的AI系统,加速AI的主流化落地。Rubin基础设施将于今年下半年通过CSP与系统集成商提供,微软等企业将成为首批部署者。 ## 03. 开放模型宇宙再扩展:新模型、数据、开源生态的重要贡献者 在软件与模型层面,英伟达继续加大了开源投入。OpenRouter等主流开发平台的数据显示,过去一年,AI模型使用量增长了20倍,其中约四分之一的token来自开源模型。 2025年,英伟达成了Hugging Face上开源模型、数据和配方的最大贡献者——发布了650个开源模型和250个开源数据集。其开源模型在多项排行榜中名列前茅。开发者不仅可以直接使用这些开源模型,还可以从中学习、持续训练、扩展数据集,并使用开源工具和文档化技术来构建AI系统。 黄仁勋在演讲中提到一个观察:受到Perplexity的启发,他发现Agents应该是多模型、多云和混合云的——这也是Agentic AI系统的基本架构,几乎所有的创业公司都在采用这个模式。借助英伟达提供的开源模型和工具,开发者现在也可以定制自己的AI系统,并使用最前沿的模型能力。 目前,英伟达已经将这些框架整合为“蓝图”,并集成到了SaaS平台中。用户可以直接借助蓝图实现快速部署。现场演示的案例中,这套系统可以根据用户意图,自动判断任务应该由本地私有模型还是云前沿模型来处理,也可以调用外部工具(如邮件API、机器人控制接口、日历服务等),还能实现多模态融合,统一处理文本、语音、图像、机器人传感信号等信息。 这些复杂的能力在过去几乎不可能实现,但现在已经成为现实。在ServiceNow、Snowflake等企业平台上,类似的能力已经开始落地。 ## 04. 开源Alpha-Mayo模型,让自动驾驶汽车“思考” 英伟达相信,物理AI和机器人最终将成为全球最大的消费电子细分市场。所有能够移动的事物,最终都将实现完全自主,由物理AI驱动。 AI的发展已经经历了感知AI、生成式AI、Agentic AI几个阶段,现在正进入物理AI时代。智能正在走入真实世界,这些模型能够理解物理规律,并直接从物理世界的感知中生成行动。 但要实现这个目标,物理AI必须先学会世界的常识——物体恒存、重力、摩擦等等。这些能力的获取将依赖三台计算机:训练计算机(DGX)用来打造AI模型,推理计算机(机器人/车载芯片)用来实时执行,仿真计算机(Omniverse)用来生成合成数据、验证物理逻辑。而其中的核心模型是Cosmos世界基础模型,它把语言、图像、3D与物理规律对齐,支撑起了从仿真到生成训练数据的全链路。 物理AI将出现在三类实体中:建筑(如工厂、仓库)、机器人、自动驾驶汽车。黄仁勋认为,自动驾驶将成为物理AI的第一个大规模应用场景。这类系统需要理解现实世界、做出决策并执行动作,对安全性、仿真和数据的要求极高。 为此,英伟达发布了Alpha-Mayo,一个由开源模型、仿真工具和物理AI数据集组成的完整体系,专门用于加速安全、基于推理的物理AI开发。这个产品组合为全球车企、供应商、创业公司和研究人员提供了构建L4级自动驾驶系统的基础模块。 Alpha-Mayo是业内第一个真正让自动驾驶汽车“思考”的模型,并且已经开源。它的工作方式是将问题拆解为步骤,对所有可能性进行推理,然后选择最安全的路径。这种推理型任务-行动模型,使自动驾驶系统能够解决此前从未经历过的复杂边缘场景——比如繁忙路口的交通灯突然失效了。 Alpha-Mayo拥有100亿个参数,这个规模足以处理自动驾驶任务,同时又足够轻量,可以运行在为自动驾驶研究人员打造的工作站上。它能接收文本、环视摄像头、车辆历史状态和导航输入,并输出行驶轨迹和推理过程,让乘客理解车辆为何采取某个行动。现场播放的宣传片中,在Alpha-Mayo的驱动下,自动驾驶汽车可以在0介入的情况下自主完成行人避让、预判左转车辆并变道绕开等操作。 黄仁勋称,搭载Alpha-Mayo的梅赛德斯奔驰CLA已经投产,并且刚被NCAP评为世界上最安全的汽车。每条代码、芯片、系统都经过了安全认证。该系统将在美国市场上线,今年晚些时候还会推出更强的驾驶能力,包括高速公路脱手驾驶,以及城市环境下的端到端自动驾驶。 此外,英伟达还发布了用于训练Alpha-Mayo的部分数据集,以及开源推理模型评估仿真框架Alpha-Sim。开发者可以使用自有数据对Alpha-Mayo进行微调,也可以使用Cosmos生成合成数据,并在真实数据与合成数据结合的基础上训练和测试自动驾驶应用。同时,英伟达宣布NVIDIA DRIVE平台现已投入生产。 在机器人领域,波士顿动力、Franka Robotics、Surgical手术机器人、LG电子、NEURA、XRLabs、智元机器人等全球机器人领先企业,均已基于NVIDIA Isaac和GR00T构建其系统。黄仁勋还官宣了与西门子的最新合作——西门子正将英伟达CUDA-X、AI模型和Omniverse集成到其EDA、CAE和数字孪生工具与平台组合中。物理AI将被广泛应用于设计、仿真到生产制造和运营的全流程。 ## 05. 结语:左手拥抱开源,右手将硬件系统做到不可替代 随着AI基础设施的重心从训练转向大规模推理,平台竞争已经不再是单点算力的比拼,而是演进到了覆盖芯片、机架、网络与软件的系统工程。目标也变得非常明确:以最低的TCO交付最大的推理吞吐。AI正在进入一个“工厂化运行”的新阶段。 英伟达始终非常注重系统级设计。Rubin同时在训练和推理上实现了性能与经济性的双重提升,并且可以作为Blackwell的即插即用替代方案,让客户能够从Blackwell无缝过渡。在平台定位上,英伟达仍然认为训练至关重要——只有快速训练出最先进的模型,推理平台才能真正受益。这也是为什么在Rubin GPU中引入NVFP4训练的原因,进一步提升了性能、降低了TCO。 同时,英伟达在纵向扩展和横向扩展架构上都大幅强化了网络通信能力,并把上下文视作关键瓶颈,实现了存储、网络、计算的协同设计。 这家AI计算巨头的策略闭环很有意思:一边是大举拥抱开源,让更多的开发者和企业进入生态;另一边则是把硬件、互连、系统设计做得越来越不可替代。持续扩大需求、激励token消耗、推动推理规模化、提供高性价比基础设施——这个闭环正为英伟达构筑起一道越来越坚不可摧的护城河。