黄仁勋未来十年判断:AI趋势深度解析
本次GTC大会上,黄仁勋发布了一系列重磅新品。最引人注目的是英伟达与微软联合打造的AI PC;紧随其后的是为Agent时代设计的Vera及其完整生态;还有开源大模型Nemotron 3 Ultra、物理AI Cosmos 3,以及基于Cosmos的参考人形机器人Isaac。
将这些产品串联起来,就勾勒出黄仁勋对未来十年计算范式的完整判断。
01 重新定义AI PC
黄仁勋直言,微软与英伟达的合作将彻底改写AI PC的定义。 他现场展示了RTX Spark。这是一台笔记本电脑,搭载英伟达与联发科联合研发的N1X芯片,内置Blackwell RTX GPU,拥有6144个CUDA核心和第五代Tensor Core,支持FP4精度。此外,还配备一颗定制的20核Grace CPU,通过NVLink-C2C芯片互联连接。整机拥有128GB统一内存,采用台积电3nm工艺,集成700亿个晶体管。 这意味着,数字生物学、地震数据处理、天体物理模拟等专业应用都能在本地流畅运行。所有基于CUDA的物理仿真、生物信息学、基因组学、AI推理、计算机图形学以及Windows原生应用,它都能胜任。
这台电脑与传统笔记本的根本区别,在于它能在本地运行Agent。黄仁勋口中的Agent,是一个能理解自然语言、看懂屏幕、解析文件并替你执行任务的AI助手。过去,这些能力往往依赖云端调用,而现在,笔记本本身就能完成。
回顾PC过去40年的使用方式——启动应用、点击、输入。如今有了RTX Spark和Windows,你只需提出问题,电脑就能替你完成工作。RTX Spark将英伟达30年积累的所有技术——CUDA、RTX、AI平台——浓缩进一颗芯片。本地Agent、前沿模型、创意工作流、RTX游戏,全都能在一台笔记本上流畅运行。
微软为RTX Spark做了深度平台优化。他们实现了工作负载配置文件调度,让Windows调度器能在20个核心上高效分配任务。无论你在查看邮件,还是在本地运行Agent调试代码,系统都能确保CPU以最佳性能和效率响应。
此外,微软启用了电源和热管理框架,在保持设备凉爽的同时最大化性能功耗比。为了实现RTX Spark高达128GB的内存,微软提升了GPU可访问的系统内存上限,使高内存系统上的GPU可用内存显著增加,从而能加载更大的本地AI模型或渲染更复杂的项目。同时,他们增强了Windows在统一内存系统上管理共享内存区域页面大小的方式,确保重负载下有大页面可用,并让开发者能更灵活地优化CPU与GPU之间的内存负载。
微软CEO萨提亚·纳德拉表示,他们的目标是用Windows将无限智能送到每个家庭和每张办公桌。此前,像OpenClaw和Hermes Agent这样的开源Agent项目,虽然在GitHub和OpenRouter上创下纪录,但始终难以大规模普及。根本原因在于它们无法在用户的主力电脑上安全、私密地运行。
英伟达和微软的合作解决了这个痛点。他们构建了新的Windows安全原语和英伟达OpenShell运行时,确保Agent在用户完全掌控下安全运行。新的Windows提供了身份、隔离、策略和端到端安全能力,用于原生构建和运行Agent。英伟达OpenShell则提供自定义功能,比如限制Agent的行为边界、根据用户隐私策略智能地将查询路由到本地模型,以及在发送到云端模型的查询中隐藏个人信息。
Hermes Agent和OpenClaw已经在他们的新Windows应用中使用了这套安全和隐私层。这些应用让用户可以轻松、安全地访问设备端Agent,这些Agent能在Windows应用中执行任务,推理跨应用的工作流,生成图像和视频,编写插件和代码,并实现本地文件的语义搜索。
黄仁勋现场演示了一个在RTX Spark上本地运行的Agent,如何帮他设计一栋房子。Agent运行Open Shell沙盒,连接Hermes编排系统和云端Claude Sonnet。它先选定地点,然后读取概念草图、风格情绪板、文字需求和设计意图。接着,Agent调用笔记本上的工具,打开Rhino进行场地建模,塑造地形、退界和建筑外壳,并提出建筑形式,同时针对成本、舒适性和质量进行优化。
形式确定后,Agent自动生成内部布局、墙体和流线,完成房间布局。它能随时调整,自动放置门窗和结构元素,甚至能自我发现并修正错误。审批通过后,Agent将模型从Rhino导出并导入Blender,材质的属性也完整转移。接着,它调整材质、选择镜头,并让Blender渲染出房子。最后,Agent使用Flux模型生成多个视角和光照条件下的渲染图。
**整个过程全部由Agent自主完成。**
这就是黄仁勋所说的“新的PC”。过去,你使用电脑是打开软件、点击鼠标、敲击键盘;现在,你可以直接告诉Agent你的目标,它就会自己去操作各种软件来完成任务。
当然,RTX Spark不仅是Agent的专属工具,它也是一台强大的创作和游戏电脑。你可以用它通过OptiX和DLSS渲染庞大的90GB 3D场景,用Blackwell解码器编辑12K 4:2:2视频,运行1200亿参数、100万token上下文的大语言模型,还能以1440p分辨率、超过100帧的流畅度畅玩支持光线追踪、DLSS和Reflex的AAA级游戏。
接下来,RTX Spark还将支持新的RTX能力,包括DLSS 4.5光线重建(采用第二代transformer模型,将出现在Blender 5.3和众多游戏中),以及RTX Video 4倍帧生成(将在ComfyUI中提供)。
除了笔记本形态的RTX Spark,黄仁勋还宣布了桌面和工作站版本——DGX Spark。
DGX Spark拥有768GB内存,可以运行万亿参数的大模型,提供20 petaflops算力,每秒8TB的内存带宽,完全可以放在办公桌上。对于大语言模型或Agent开发者来说,他们可以先在本地训练和测试模型,待需要大规模部署时,再无缝地将模型迁移到云端。
黄仁勋打了个比方:回想15到20年前的电话,今天的手机,打电话早已不是最常用的功能,手机的意义已经完全变了。PC也将经历类似的变化。十年后的PC,绝不会仅仅是用来打开软件、点击鼠标的工具。
据了解,ASUS、Dell、HP、Lenovo、微软Surface和MSI将在今年秋季推出由RTX Spark驱动的超薄Windows笔记本和紧凑型台式PC,具备全天候电池续航和优质显示屏。Acer和GIGABYTE的型号将在随后推出。至于具体价格?黄仁勋并未透露。
02 Vera Rubin和AI工厂
接下来,黄仁勋宣布Vera Rubin已经全面投入生产。这是一套五机架规模的AI超级计算机系统,专门为运行Agent而设计。它由五部分组成:
第一,Vera Rubin NVL72,作为Agent的“大脑”,负责提示理解、上下文处理、推理和规划。第二,Vera CPU机架,单个液冷机架内集成256颗Vera CPU,负责协调模型、管理内存、调用工具。第三,Groq 3 LPX机架,包含256个Groq 3 LPU,横跨16个托架,每秒40PB的SRAM带宽,提供超低延迟的token生成。简单说,NVL72负责高吞吐,Groq LPU负责低延迟。第四,Vera BlueField-4 STX存储机架,这是Agent保存记忆的地方,负责存储处理、加速和片上安全。第五,NVIDIA Spectrum-X Ethernet CPO网络机架,配备共封装光学技术的以太网交换机,200Gb/s SerDes,与台积电合作实现了芯片级封装和超高功率磷化铟激光模块。
Vera Rubin由七颗新芯片组成。采用台积电3nm制程、CoWoS-L封装技术,HBM内存由Micron、SK hynix和Samsung供应。一块Vera Rubin计算板上集成了万亿级晶体管和超过18000个元件。整个机架包含18个计算托盘、9个热插拔NVLink交换托盘、高效液冷歧管和汇流排。液冷汇流排可以承载超过5000安培的电流,相当于20台电动汽车全速加速时的电流。总计130万个元件构成了第三代MGX机架设计。
与上一代Grace Blackwell相比,Vera Rubin在处理Agent任务时的吞吐量提升了10倍。黄仁勋透露,他们为Vera Rubin构建的供应链规模是Grace Blackwell的两倍。
值得一提的是,以前组装一个Grace Blackwell机架需要两小时,现在Vera Rubin只需五分钟。关键原因在于设计革新:过去机架里布满了线缆和软管,而如今直接用PCB中板连接两侧,彻底消除了线缆、软管和风扇。整机采用全液冷、模块化、热插拔设计。
黄仁勋回顾道,在Hopper时代,最重要的工作是预训练;到了Grace Blackwell,重点转向了推理。“很多人说推理很简单,但推理就是钱。”随着模型日益复杂,要在高响应速度、快速交互和高吞吐下同时完成推理,难度极大。这正是NVLink 72存在的重要意义。他声称,今天英伟达的token成本比竞争对手低一个数量级,因为他们真正理解了推理的计算模式,并进行了协同设计。
现在,Agent时代来临。Agent不再只是生成答案,它需要观察、推理、规划、使用工具,管理大量上下文,处理工作记忆和长期记忆,并衍生出专家子Agent。Vera Rubin正是为此而生。
Vera Rubin平台首次引入了英伟达Spectrum-X以太网光子学,这是世界上第一个基于共封装光学技术的交换机,拥有200Gb/s SerDes,目前已投产。什么是共封装光学?传统网络交换机使用可插拔收发器,它需要额外的功率、散热和空间。而共封装光学技术将光学模块直接封装在交换机芯片上,与台积电合作实现了芯片级封装。这样做带来了三个显著优势:能效提升5倍(因为光学模块与芯片间的信号损耗变小了),AI正常运行时间延长5倍(减少了可插拔部件的故障点),部署时间缩短三分之一(简化了设计,为计算释放了更多功率)。
CoreWea ve、Lambda和Oracle Cloud Infrastructure成为首批采用共封装光学网络的合作伙伴。Lambda还在博客中展示了英伟达首批共封装光学样品的开箱。黄仁勋表示,通过简化设计为计算释放更多功率,英伟达的共封装光学网络为百万GPU AI工厂提供了基础架构。
Vera Rubin平台还集成了英伟达BlueField-4 DPU。
BlueField-4拥有高达800Gb/s速度的软件定义网络和内置的多租户隔离。借助英伟达BlueField-4 Advanced Secure Trusted Resource Architecture,客户可以简化网络操作、改善租户隔离,在百万GPU的AI集群中获得更大的控制权。
随着AI工厂越来越多地处理专有数据、受监管内容和关键任务模型,针对共享或云环境中自主Agent定制的基础设施安全变得至关重要,因为基础设施本身不能被隐式信任。为此,Vera Rubin平台设计了全栈英伟达机密计算,用于机架规模的可信执行环境。Vera Rubin NVL72将Vera CPU、Rubin GPU、英伟达NVLink网络和安全功能整合到统一平台中,并在高速互连之间加密数据。这提供了硬件级认证,确保系统防篡改。
在POD规模提供这种级别的保护,还需要一个可编程的软件层,以在整个系统中执行、编排和调整安全策略。英伟达DOCA软件平台在每一个Vera Rubin平台机架和AI工厂层提供安全性,通过直接在BlueField-4硅中执行的能力,保护数据、Agent、上下文内存和AI推理。DOCA能实现多租户网络隔离、零信任策略执行、运行时威胁检测和高达800Gb/s速度的端到端加密,且这一切不占用主机CPU资源,让企业可以放心地扩展AI工厂。
英伟达DSX平台为Vera Rubin AI工厂提供了完整的设计和运营基础。DSX统一了参考设计、仿真、基础设施软件、设施和生态系统技术,旨在帮助构建和运营针对最低token成本优化的节能AI工厂。黄仁勋表示,全球都在建设AI工厂,这是大规模基础设施建设。AI工厂复杂度极高,芯片、机架、网络、电力、冷却、电网,每一层都必须从端到端一起设计,因为计算就是收入。英伟达DSX就是这份蓝图,是建设和运营AI工厂的参考设计,核心目标是高效率和高盈利能力。
DSX为Vera Rubin POD架构构建,对齐了堆栈的每一层,从硅和系统到生命周期管理和多租户操作,加快了部署速度,提高了规模运营的可靠性和弹性。目前,Dell Technologies、HPE、Lenovo和Supermicro,以及ASUS、Foxconn、GIGABYTE、Pegatron、Quanta Cloud Technology、Wistron和Wiwynn,都在采用英伟达DSX来加速基于Vera Rubin的AI工厂建设。
DSX包含三个核心部分。第一是DSX Sim。Omniverse Blueprint合作伙伴可以在第一台机架到场前,就设计并验证一座英伟达Rubin AI工厂。他们可以规划布局、模拟电力和冷却、设计网络,并在数字孪生中验证每一次集成测试和每一次变更。第二是DSX OS。工厂通电后,DSX OS接管运营,提供监控和修复基础设施,将已安装的系统变成多租户、弹性、AI就绪的容量。第三是DSX Max-Q。
DSX Max-Q的作用是什么?今天的AI工厂常常将电力过度配置40%,以防备峰值负载。DSX Max-Q则允许运营商在相同电力预算下部署更多GPU。它包含几个关键技术:温液冷却可以在45摄氏度下运行,消耗更少的水和能源,将更多的能源留给计算;动态电力分配可以将机架电力导向需要工作的地方,回收闲置的瓦特;机架内部的电力平滑机制可以削平峰值电流和电涌。
贯穿整座工厂,AI Agent工作团队会通过DSX Max-Q持续协调,平衡冷却、电力和工作负载需求。DSX AI工厂还能作为弹性能量资产,与电网协同工作。DSX Flex能读取实时电网信号,在电网需要缓解压力时动态调整工厂电力消耗。
黄仁勋预测,到本十年结束前,全球将有100GW的AI工厂上线。由英伟达DSX运营的AI工厂,将以最高效率生产出最低成本的token。
那么Vera Rubin何时可以买到?生产出货将从今年秋季开始。
黄仁勋坦言,过去英伟达是一家GPU公司,这些年他们逐渐演进成系统公司。而现在,他们正在展示有史以来最复杂的系统。因为最终客户和合作伙伴想要的,不是买一台计算机,而是建设AI工厂。正因如此,英伟达在再次转型,其技术视角已经延伸到了基础设施的尺度。现在的合作伙伴,已经涵盖了发电、冷却、电网供应商和工业基础设施公司。他们正在努力构建完整的堆栈,就像当年为GPU、Grace Blackwell、NVLink 72所做的那样。现在,他们正在构建完整的基础设施系统,让客户可以顺利建设自己的AI基础设施。
每个千兆瓦级的AI工厂投入,起步就是200亿到300亿美元,并且很快会达到每千兆瓦800亿到1000亿美元。当投入1000亿美元建设AI工厂时,它必须第一次就能工作,而且必须立刻成功。资本成本高,复杂度也高。就像设计芯片时会先在计算机里模拟芯片、再模拟整个系统一样,英伟达现在也把AI工厂建在了Omniverse里。他们可以在数字世界里建造这些系统,在现实世界动工前就完成验证。
如果说RTX是GPU,DGX是系统,那么现在DSX就是基础设施。它包括系统和软件,让英伟达能够与合作伙伴一起,将它们变成AI云。比如CoreWea ve,其价值已达到数百亿美元,并仍在增长。这些公司服务各自区域,也服务全球客户。AI会无处不在,每家公司都将由AI驱动,每个地区也都会建设自己的AI能力。它们需要完整的计算栈,包括硬件、软件、库,以及连接第三方生态和开发者的能力。
帮助客户建设和部署AI工厂至关重要。原因很简单:计算就是收入,而现在计算就是利润。没有收入、没有利润,就会变成亏损。这就是英伟达成为重要伙伴的原因。他们创造完整的基础设施,把每件东西连接起来,进行验证,确保一切正常运转。结果是:从time to first token更快,到推理启动更快,再到从推理转向训练也更快。每瓦产生的token更多,因为一切都是从头设计、模拟并进行了协同设计。可靠性同样重要,大型数据中心有数百万条电缆和无数活动部件,要让这些计算机和谐工作极难。英伟达长期运行超大规模系统的经验,在其中发挥了关键作用。
最后,是产品寿命的问题。几年前Hopper时代的AI,与今天已截然不同。六年前Ampere时代还在谈论CNN,后来谈论Transformer,再后来谈论专家混合,现在则谈论Agent系统。每隔几个月,软件行业就会出现新技术。如果架构不灵活,生态系统不丰富,资产的寿命就不会长。因为全球的软件开发者都在使用英伟达CUDA,所以英伟达CUDA生态下的资产寿命会更长。从成本的反面来理解:如果资产寿命更长,总拥有成本就更低。这才是差异的核心所在。
**黄仁勋总结道:买得越多,赚得越多。** 全球的工厂和员工都在拼命工作,因为全世界都想赚钱。大家已经意识到,有用的AI到来了,可盈利的AI也到来了。计算需求高得惊人,而需求本身就是最大的限制。
03 各种大模型
黄仁勋今天还发布了开源大模型Nemotron 3 Ultra。Nemotron是英伟达为世界构建的专用开源模型,专门为Agent工作负载设计。与其他开源模型不同,Nemotron不仅给你模型,还提供训练模型所用的数据。 Nemotron针对长时间推理、长时间运行的工具任务、工具使用和任务解决进行了训练,是世界上最大的长时程推理模型之一。模型、训练脚本和数据,全部开源。黄仁勋认为,这是开源模型的最佳形态——你可以拿走它,继续添加数据,让它变得更好,最终成为你自己的模型。 Nemotron 3 Ultra主要有三大优势。第一,速度快近五倍。它是世界上第一批基于混合架构的模型之一,结合了状态空间模型(SSM)与专家混合(MoE)。这种架构速度极快,而更快意味着你能用相同的成本思考更久。 第二,运行成本降低约30%。 第三,完全开源,包括模型、训练脚本和数据。 那么,Nemotron 3 Ultra到底能用来做什么?黄仁勋举了一个实际的案例。他说,现在的芯片设计过于复杂,依赖工程师一行行检查、一轮轮跑验证,既慢又贵。每颗AI芯片里有海量的晶体管,每条线路、每个逻辑门都必须严丝合缝,任何一个微小错误都可能让芯片延期数月。 因此,英伟达与Cadence联手打造了一个“芯片设计AI助手团队”。这个团队由一组会干活的Agent组成。它能够读取芯片设计规格,编写或修改RTL代码,自动生成测试用例,调用Cadence的仿真工具Xcelium进行模拟,再用Jasper进行形式化验证。一旦发现Bug,它还能定位问题、修改代码,再重新运行验证。 这个团队的分工大致如下:Codex像项目经理,负责调度整个流程;Nemotron像技术大脑,负责推理、判断、推进验证循环;Cadence工具栈像专业仪器,负责真正跑芯片仿真和验证;Open Shell像安全沙箱,确保Agent在受控环境里工作;而一堆专家子Agent则分别负责写RTL、建测试平台、跑回归测试、调试Bug。 以前,芯片验证需要工程师手动反复操作,周期可能是几周。现在,英伟达想让AI Agent自动接管一部分流程,把“写代码、跑仿真、找Bug、修Bug、再验证”变成一个自动循环,将芯片设计验证从几周压缩到几小时。 与此同时,黄仁勋还搬出了英伟达最前沿的物理AI——Cosmos 3。
黄仁勋坦言,虽然语言模型领域有很多参与者,但在物理AI方面,英伟达绝对是全球最强的之一。他解释道,对于语言模型,可以使用互联网上的文本训练,因为这些内容来自人类的写作和阅读。但要为机器人构建数据,数据必须来自感知,来自机器人的视角。而世界上大多数视频数据都是第三人称视角,而非第一人称视角。因此,对于Agent系统、机器人系统、物理AI来说,数据是最难解决的问题。
英伟达的核心思路是:机器人太缺训练数据了。训练语言模型,可以利用互联网上的文字;但训练机器人,它需要理解真实世界中的空间、动作、物体和物理规律。然而,真实世界的数据很难收集。你不可能让机器人在现实中无限试错,因为那样太慢、太贵,而且存在危险。
所以,英伟达的解决方案是:先让人远程操控机器人,为它做示范;再用Omniverse做仿真,在虚拟世界里生成更多训练场景;接着,将普通视频中的第三人称视角转换成机器人自己的第一人称视角;最后,用Cosmos这种世界模型,让AI自己理解和生成物理世界的数据。
Cosmos可以理解视频中发生的一切,也能根据文字、图片、视频生成符合物理规律的新视频。例如,你给它一个场景,它可以预测下一秒会发生什么;你让它模拟机器人抓杯子,它可以生成这个动作过程;你用它训练自动驾驶,它可以制造出各种复杂的道路情况。
正因如此,黄仁勋才说“计算就是数据”。以前,数据只能从现实世界采集;现在,数据可以直接用计算生成。只要模型足够强,计算机就能模拟真实世界,为机器人制造出近乎无限量的训练材料。这对物理AI来说至关重要,因为机器人需要的不是会聊天的AI,而是懂现实世界如何运转的AI。
基于此,英伟达打造了一个“人形机器人标准套件”,命名为Isaac GR00T。为什么要做这个?因为做人形机器人实在太难了。一个机器人身上集成了无数电机、传感器、控制系统,还需要训练数据、仿真环境、操作系统、AI模型和部署工具。以前,每个研究团队都要从零开始拼凑这些东西,仅仅搭建环境就可能耗费数月时间,真正的研发还没开始,人已经筋疲力尽。
因此,英伟达决定直接提供一个参考平台。这个平台不只是一个机器人硬件,而是一整套体系:包含机器人本体,运行机器人的Jetson Thor计算平台,AI模型,仿真工具Isaac Lab,远程操作工具Isaac Teleop,用于生成合成数据的Omniverse和Cosmos,训练和评估环境,以及负责部署到真实机器人上的Isaac ROS。
你可以把它理解为机器人界的“开发样机 + 操作系统 + 训练工具包”。研究者拿到GR00T后,无需再从零开始制造机器人、搭建仿真环境、连接传感器、编写底层系统,而是可以直接开始训练机器人执行具体任务,比如抓取物体、搬运物品、平稳行走,或在工厂中完成特定工作。研究者既可以使用英伟达的全套组件,也可以只选用其中一部分,并根据需要替换自己的模型、传感器或控制系统。
黄仁勋介绍说,它有25个身体自由度,每只手31个自由度,身高大约6英尺(约1.83米),体重150磅(约68公斤)。这番描述的用意很明确:它是一个接近真人尺寸、能够执行复杂动作的人形机器人参考设计。