黄仁勋未来十年判断：AI趋势深度解析

2026-06-01阅读 0热度 0

黄仁勋

计算即收益，瓦特即收益，每个token都是收益！这句话，出自GTC 2026黄仁勋之口，精准点明了AI时代的核心逻辑：单位瓦特产出的token越多，盈利空间越大。一组数据印证了他的观点：2026年前几个月，GitHub代码提交量激增近三倍。这意味着，全球3000万软件开发者创造的3万亿美元薪酬价值，正在催生约9万亿美元的生产力增量。

本次GTC大会上，黄仁勋发布了一系列重磅新品。最引人注目的是英伟达与微软联合打造的AI PC；紧随其后的是为Agent时代设计的Vera及其完整生态；还有开源大模型Nemotron 3 Ultra、物理AI Cosmos 3，以及基于Cosmos的参考人形机器人Isaac。将这些产品串联起来，就勾勒出黄仁勋对未来十年计算范式的完整判断。

01 重新定义AI PC

黄仁勋直言，微软与英伟达的合作将彻底改写AI PC的定义。他现场展示了RTX Spark。这是一台笔记本电脑，搭载英伟达与联发科联合研发的N1X芯片，内置Blackwell RTX GPU，拥有6144个CUDA核心和第五代Tensor Core，支持FP4精度。此外，还配备一颗定制的20核Grace CPU，通过NVLink-C2C芯片互联连接。整机拥有128GB统一内存，采用台积电3nm工艺，集成700亿个晶体管。这意味着，数字生物学、地震数据处理、天体物理模拟等专业应用都能在本地流畅运行。所有基于CUDA的物理仿真、生物信息学、基因组学、AI推理、计算机图形学以及Windows原生应用，它都能胜任。

这台电脑与传统笔记本的根本区别，在于它能在本地运行Agent。黄仁勋口中的Agent，是一个能理解自然语言、看懂屏幕、解析文件并替你执行任务的AI助手。过去，这些能力往往依赖云端调用，而现在，笔记本本身就能完成。回顾PC过去40年的使用方式——启动应用、点击、输入。如今有了RTX Spark和Windows，你只需提出问题，电脑就能替你完成工作。RTX Spark将英伟达30年积累的所有技术——CUDA、RTX、AI平台——浓缩进一颗芯片。本地Agent、前沿模型、创意工作流、RTX游戏，全都能在一台笔记本上流畅运行。微软为RTX Spark做了深度平台优化。他们实现了工作负载配置文件调度，让Windows调度器能在20个核心上高效分配任务。无论你在查看邮件，还是在本地运行Agent调试代码，系统都能确保CPU以最佳性能和效率响应。此外，微软启用了电源和热管理框架，在保持设备凉爽的同时最大化性能功耗比。为了实现RTX Spark高达128GB的内存，微软提升了GPU可访问的系统内存上限，使高内存系统上的GPU可用内存显著增加，从而能加载更大的本地AI模型或渲染更复杂的项目。同时，他们增强了Windows在统一内存系统上管理共享内存区域页面大小的方式，确保重负载下有大页面可用，并让开发者能更灵活地优化CPU与GPU之间的内存负载。微软CEO萨提亚·纳德拉表示，他们的目标是用Windows将无限智能送到每个家庭和每张办公桌。此前，像OpenClaw和Hermes Agent这样的开源Agent项目，虽然在GitHub和OpenRouter上创下纪录，但始终难以大规模普及。根本原因在于它们无法在用户的主力电脑上安全、私密地运行。英伟达和微软的合作解决了这个痛点。他们构建了新的Windows安全原语和英伟达OpenShell运行时，确保Agent在用户完全掌控下安全运行。新的Windows提供了身份、隔离、策略和端到端安全能力，用于原生构建和运行Agent。英伟达OpenShell则提供自定义功能，比如限制Agent的行为边界、根据用户隐私策略智能地将查询路由到本地模型，以及在发送到云端模型的查询中隐藏个人信息。 Hermes Agent和OpenClaw已经在他们的新Windows应用中使用了这套安全和隐私层。这些应用让用户可以轻松、安全地访问设备端Agent，这些Agent能在Windows应用中执行任务，推理跨应用的工作流，生成图像和视频，编写插件和代码，并实现本地文件的语义搜索。黄仁勋现场演示了一个在RTX Spark上本地运行的Agent，如何帮他设计一栋房子。Agent运行Open Shell沙盒，连接Hermes编排系统和云端Claude Sonnet。它先选定地点，然后读取概念草图、风格情绪板、文字需求和设计意图。接着，Agent调用笔记本上的工具，打开Rhino进行场地建模，塑造地形、退界和建筑外壳，并提出建筑形式，同时针对成本、舒适性和质量进行优化。形式确定后，Agent自动生成内部布局、墙体和流线，完成房间布局。它能随时调整，自动放置门窗和结构元素，甚至能自我发现并修正错误。审批通过后，Agent将模型从Rhino导出并导入Blender，材质的属性也完整转移。接着，它调整材质、选择镜头，并让Blender渲染出房子。最后，Agent使用Flux模型生成多个视角和光照条件下的渲染图。 **整个过程全部由Agent自主完成。** 这就是黄仁勋所说的“新的PC”。过去，你使用电脑是打开软件、点击鼠标、敲击键盘；现在，你可以直接告诉Agent你的目标，它就会自己去操作各种软件来完成任务。当然，RTX Spark不仅是Agent的专属工具，它也是一台强大的创作和游戏电脑。你可以用它通过OptiX和DLSS渲染庞大的90GB 3D场景，用Blackwell解码器编辑12K 4:2:2视频，运行1200亿参数、100万token上下文的大语言模型，还能以1440p分辨率、超过100帧的流畅度畅玩支持光线追踪、DLSS和Reflex的AAA级游戏。接下来，RTX Spark还将支持新的RTX能力，包括DLSS 4.5光线重建（采用第二代transformer模型，将出现在Blender 5.3和众多游戏中），以及RTX Video 4倍帧生成（将在ComfyUI中提供）。除了笔记本形态的RTX Spark，黄仁勋还宣布了桌面和工作站版本——DGX Spark。

DGX Spark拥有768GB内存，可以运行万亿参数的大模型，提供20 petaflops算力，每秒8TB的内存带宽，完全可以放在办公桌上。对于大语言模型或Agent开发者来说，他们可以先在本地训练和测试模型，待需要大规模部署时，再无缝地将模型迁移到云端。黄仁勋打了个比方：回想15到20年前的电话，今天的手机，打电话早已不是最常用的功能，手机的意义已经完全变了。PC也将经历类似的变化。十年后的PC，绝不会仅仅是用来打开软件、点击鼠标的工具。据了解，ASUS、Dell、HP、Lenovo、微软Surface和MSI将在今年秋季推出由RTX Spark驱动的超薄Windows笔记本和紧凑型台式PC，具备全天候电池续航和优质显示屏。Acer和GIGABYTE的型号将在随后推出。至于具体价格？黄仁勋并未透露。

02 Vera Rubin和AI工厂

接下来，黄仁勋宣布Vera Rubin已经全面投入生产。这是一套五机架规模的AI超级计算机系统，专门为运行Agent而设计。它由五部分组成：

第一，Vera Rubin NVL72，作为Agent的“大脑”，负责提示理解、上下文处理、推理和规划。第二，Vera CPU机架，单个液冷机架内集成256颗Vera CPU，负责协调模型、管理内存、调用工具。第三，Groq 3 LPX机架，包含256个Groq 3 LPU，横跨16个托架，每秒40PB的SRAM带宽，提供超低延迟的token生成。简单说，NVL72负责高吞吐，Groq LPU负责低延迟。第四，Vera BlueField-4 STX存储机架，这是Agent保存记忆的地方，负责存储处理、加速和片上安全。第五，NVIDIA Spectrum-X Ethernet CPO网络机架，配备共封装光学技术的以太网交换机，200Gb/s SerDes，与台积电合作实现了芯片级封装和超高功率磷化铟激光模块。 Vera Rubin由七颗新芯片组成。采用台积电3nm制程、CoWoS-L封装技术，HBM内存由Micron、SK hynix和Samsung供应。一块Vera Rubin计算板上集成了万亿级晶体管和超过18000个元件。整个机架包含18个计算托盘、9个热插拔NVLink交换托盘、高效液冷歧管和汇流排。液冷汇流排可以承载超过5000安培的电流，相当于20台电动汽车全速加速时的电流。总计130万个元件构成了第三代MGX机架设计。与上一代Grace Blackwell相比，Vera Rubin在处理Agent任务时的吞吐量提升了10倍。黄仁勋透露，他们为Vera Rubin构建的供应链规模是Grace Blackwell的两倍。值得一提的是，以前组装一个Grace Blackwell机架需要两小时，现在Vera Rubin只需五分钟。关键原因在于设计革新：过去机架里布满了线缆和软管，而如今直接用PCB中板连接两侧，彻底消除了线缆、软管和风扇。整机采用全液冷、模块化、热插拔设计。黄仁勋回顾道，在Hopper时代，最重要的工作是预训练；到了Grace Blackwell，重点转向了推理。“很多人说推理很简单，但推理就是钱。”随着模型日益复杂，要在高响应速度、快速交互和高吞吐下同时完成推理，难度极大。这正是NVLink 72存在的重要意义。他声称，今天英伟达的token成本比竞争对手低一个数量级，因为他们真正理解了推理的计算模式，并进行了协同设计。现在，Agent时代来临。Agent不再只是生成答案，它需要观察、推理、规划、使用工具，管理大量上下文，处理工作记忆和长期记忆，并衍生出专家子Agent。Vera Rubin正是为此而生。 Vera Rubin平台首次引入了英伟达Spectrum-X以太网光子学，这是世界上第一个基于共封装光学技术的交换机，拥有200Gb/s SerDes，目前已投产。什么是共封装光学？传统网络交换机使用可插拔收发器，它需要额外的功率、散热和空间。而共封装光学技术将光学模块直接封装在交换机芯片上，与台积电合作实现了芯片级封装。这样做带来了三个显著优势：能效提升5倍（因为光学模块与芯片间的信号损耗变小了），AI正常运行时间延长5倍（减少了可插拔部件的故障点），部署时间缩短三分之一（简化了设计，为计算释放了更多功率）。 CoreWea ve、Lambda和Oracle Cloud Infrastructure成为首批采用共封装光学网络的合作伙伴。Lambda还在博客中展示了英伟达首批共封装光学样品的开箱。黄仁勋表示，通过简化设计为计算释放更多功率，英伟达的共封装光学网络为百万GPU AI工厂提供了基础架构。 Vera Rubin平台还集成了英伟达BlueField-4 DPU。

BlueField-4拥有高达800Gb/s速度的软件定义网络和内置的多租户隔离。借助英伟达BlueField-4 Advanced Secure Trusted Resource Architecture，客户可以简化网络操作、改善租户隔离，在百万GPU的AI集群中获得更大的控制权。随着AI工厂越来越多地处理专有数据、受监管内容和关键任务模型，针对共享或云环境中自主Agent定制的基础设施安全变得至关重要，因为基础设施本身不能被隐式信任。为此，Vera Rubin平台设计了全栈英伟达机密计算，用于机架规模的可信执行环境。Vera Rubin NVL72将Vera CPU、Rubin GPU、英伟达NVLink网络和安全功能整合到统一平台中，并在高速互连之间加密数据。这提供了硬件级认证，确保系统防篡改。在POD规模提供这种级别的保护，还需要一个可编程的软件层，以在整个系统中执行、编排和调整安全策略。英伟达DOCA软件平台在每一个Vera Rubin平台机架和AI工厂层提供安全性，通过直接在BlueField-4硅中执行的能力，保护数据、Agent、上下文内存和AI推理。DOCA能实现多租户网络隔离、零信任策略执行、运行时威胁检测和高达800Gb/s速度的端到端加密，且这一切不占用主机CPU资源，让企业可以放心地扩展AI工厂。英伟达DSX平台为Vera Rubin AI工厂提供了完整的设计和运营基础。DSX统一了参考设计、仿真、基础设施软件、设施和生态系统技术，旨在帮助构建和运营针对最低token成本优化的节能AI工厂。黄仁勋表示，全球都在建设AI工厂，这是大规模基础设施建设。AI工厂复杂度极高，芯片、机架、网络、电力、冷却、电网，每一层都必须从端到端一起设计，因为计算就是收入。英伟达DSX就是这份蓝图，是建设和运营AI工厂的参考设计，核心目标是高效率和高盈利能力。 DSX为Vera Rubin POD架构构建，对齐了堆栈的每一层，从硅和系统到生命周期管理和多租户操作，加快了部署速度，提高了规模运营的可靠性和弹性。目前，Dell Technologies、HPE、Lenovo和Supermicro，以及ASUS、Foxconn、GIGABYTE、Pegatron、Quanta Cloud Technology、Wistron和Wiwynn，都在采用英伟达DSX来加速基于Vera Rubin的AI工厂建设。 DSX包含三个核心部分。第一是DSX Sim。Omniverse Blueprint合作伙伴可以在第一台机架到场前，就设计并验证一座英伟达Rubin AI工厂。他们可以规划布局、模拟电力和冷却、设计网络，并在数字孪生中验证每一次集成测试和每一次变更。第二是DSX OS。工厂通电后，DSX OS接管运营，提供监控和修复基础设施，将已安装的系统变成多租户、弹性、AI就绪的容量。第三是DSX Max-Q。 DSX Max-Q的作用是什么？今天的AI工厂常常将电力过度配置40%，以防备峰值负载。DSX Max-Q则允许运营商在相同电力预算下部署更多GPU。它包含几个关键技术：温液冷却可以在45摄氏度下运行，消耗更少的水和能源，将更多的能源留给计算；动态电力分配可以将机架电力导向需要工作的地方，回收闲置的瓦特；机架内部的电力平滑机制可以削平峰值电流和电涌。贯穿整座工厂，AI Agent工作团队会通过DSX Max-Q持续协调，平衡冷却、电力和工作负载需求。DSX AI工厂还能作为弹性能量资产，与电网协同工作。DSX Flex能读取实时电网信号，在电网需要缓解压力时动态调整工厂电力消耗。黄仁勋预测，到本十年结束前，全球将有100GW的AI工厂上线。由英伟达DSX运营的AI工厂，将以最高效率生产出最低成本的token。那么Vera Rubin何时可以买到？生产出货将从今年秋季开始。黄仁勋坦言，过去英伟达是一家GPU公司，这些年他们逐渐演进成系统公司。而现在，他们正在展示有史以来最复杂的系统。因为最终客户和合作伙伴想要的，不是买一台计算机，而是建设AI工厂。正因如此，英伟达在再次转型，其技术视角已经延伸到了基础设施的尺度。现在的合作伙伴，已经涵盖了发电、冷却、电网供应商和工业基础设施公司。他们正在努力构建完整的堆栈，就像当年为GPU、Grace Blackwell、NVLink 72所做的那样。现在，他们正在构建完整的基础设施系统，让客户可以顺利建设自己的AI基础设施。每个千兆瓦级的AI工厂投入，起步就是200亿到300亿美元，并且很快会达到每千兆瓦800亿到1000亿美元。当投入1000亿美元建设AI工厂时，它必须第一次就能工作，而且必须立刻成功。资本成本高，复杂度也高。就像设计芯片时会先在计算机里模拟芯片、再模拟整个系统一样，英伟达现在也把AI工厂建在了Omniverse里。他们可以在数字世界里建造这些系统，在现实世界动工前就完成验证。如果说RTX是GPU，DGX是系统，那么现在DSX就是基础设施。它包括系统和软件，让英伟达能够与合作伙伴一起，将它们变成AI云。比如CoreWea ve，其价值已达到数百亿美元，并仍在增长。这些公司服务各自区域，也服务全球客户。AI会无处不在，每家公司都将由AI驱动，每个地区也都会建设自己的AI能力。它们需要完整的计算栈，包括硬件、软件、库，以及连接第三方生态和开发者的能力。帮助客户建设和部署AI工厂至关重要。原因很简单：计算就是收入，而现在计算就是利润。没有收入、没有利润，就会变成亏损。这就是英伟达成为重要伙伴的原因。他们创造完整的基础设施，把每件东西连接起来，进行验证，确保一切正常运转。结果是：从time to first token更快，到推理启动更快，再到从推理转向训练也更快。每瓦产生的token更多，因为一切都是从头设计、模拟并进行了协同设计。可靠性同样重要，大型数据中心有数百万条电缆和无数活动部件，要让这些计算机和谐工作极难。英伟达长期运行超大规模系统的经验，在其中发挥了关键作用。最后，是产品寿命的问题。几年前Hopper时代的AI，与今天已截然不同。六年前Ampere时代还在谈论CNN，后来谈论Transformer，再后来谈论专家混合，现在则谈论Agent系统。每隔几个月，软件行业就会出现新技术。如果架构不灵活，生态系统不丰富，资产的寿命就不会长。因为全球的软件开发者都在使用英伟达CUDA，所以英伟达CUDA生态下的资产寿命会更长。从成本的反面来理解：如果资产寿命更长，总拥有成本就更低。这才是差异的核心所在。 **黄仁勋总结道：买得越多，赚得越多。** 全球的工厂和员工都在拼命工作，因为全世界都想赚钱。大家已经意识到，有用的AI到来了，可盈利的AI也到来了。计算需求高得惊人，而需求本身就是最大的限制。

03 各种大模型

黄仁勋今天还发布了开源大模型Nemotron 3 Ultra。Nemotron是英伟达为世界构建的专用开源模型，专门为Agent工作负载设计。与其他开源模型不同，Nemotron不仅给你模型，还提供训练模型所用的数据。 Nemotron针对长时间推理、长时间运行的工具任务、工具使用和任务解决进行了训练，是世界上最大的长时程推理模型之一。模型、训练脚本和数据，全部开源。黄仁勋认为，这是开源模型的最佳形态——你可以拿走它，继续添加数据，让它变得更好，最终成为你自己的模型。 Nemotron 3 Ultra主要有三大优势。第一，速度快近五倍。它是世界上第一批基于混合架构的模型之一，结合了状态空间模型（SSM）与专家混合（MoE）。这种架构速度极快，而更快意味着你能用相同的成本思考更久。第二，运行成本降低约30%。第三，完全开源，包括模型、训练脚本和数据。那么，Nemotron 3 Ultra到底能用来做什么？黄仁勋举了一个实际的案例。他说，现在的芯片设计过于复杂，依赖工程师一行行检查、一轮轮跑验证，既慢又贵。每颗AI芯片里有海量的晶体管，每条线路、每个逻辑门都必须严丝合缝，任何一个微小错误都可能让芯片延期数月。因此，英伟达与Cadence联手打造了一个“芯片设计AI助手团队”。这个团队由一组会干活的Agent组成。它能够读取芯片设计规格，编写或修改RTL代码，自动生成测试用例，调用Cadence的仿真工具Xcelium进行模拟，再用Jasper进行形式化验证。一旦发现Bug，它还能定位问题、修改代码，再重新运行验证。这个团队的分工大致如下：Codex像项目经理，负责调度整个流程；Nemotron像技术大脑，负责推理、判断、推进验证循环；Cadence工具栈像专业仪器，负责真正跑芯片仿真和验证；Open Shell像安全沙箱，确保Agent在受控环境里工作；而一堆专家子Agent则分别负责写RTL、建测试平台、跑回归测试、调试Bug。以前，芯片验证需要工程师手动反复操作，周期可能是几周。现在，英伟达想让AI Agent自动接管一部分流程，把“写代码、跑仿真、找Bug、修Bug、再验证”变成一个自动循环，将芯片设计验证从几周压缩到几小时。与此同时，黄仁勋还搬出了英伟达最前沿的物理AI——Cosmos 3。

黄仁勋坦言，虽然语言模型领域有很多参与者，但在物理AI方面，英伟达绝对是全球最强的之一。他解释道，对于语言模型，可以使用互联网上的文本训练，因为这些内容来自人类的写作和阅读。但要为机器人构建数据，数据必须来自感知，来自机器人的视角。而世界上大多数视频数据都是第三人称视角，而非第一人称视角。因此，对于Agent系统、机器人系统、物理AI来说，数据是最难解决的问题。英伟达的核心思路是：机器人太缺训练数据了。训练语言模型，可以利用互联网上的文字；但训练机器人，它需要理解真实世界中的空间、动作、物体和物理规律。然而，真实世界的数据很难收集。你不可能让机器人在现实中无限试错，因为那样太慢、太贵，而且存在危险。所以，英伟达的解决方案是：先让人远程操控机器人，为它做示范；再用Omniverse做仿真，在虚拟世界里生成更多训练场景；接着，将普通视频中的第三人称视角转换成机器人自己的第一人称视角；最后，用Cosmos这种世界模型，让AI自己理解和生成物理世界的数据。 Cosmos可以理解视频中发生的一切，也能根据文字、图片、视频生成符合物理规律的新视频。例如，你给它一个场景，它可以预测下一秒会发生什么；你让它模拟机器人抓杯子，它可以生成这个动作过程；你用它训练自动驾驶，它可以制造出各种复杂的道路情况。正因如此，黄仁勋才说“计算就是数据”。以前，数据只能从现实世界采集；现在，数据可以直接用计算生成。只要模型足够强，计算机就能模拟真实世界，为机器人制造出近乎无限量的训练材料。这对物理AI来说至关重要，因为机器人需要的不是会聊天的AI，而是懂现实世界如何运转的AI。基于此，英伟达打造了一个“人形机器人标准套件”，命名为Isaac GR00T。为什么要做这个？因为做人形机器人实在太难了。一个机器人身上集成了无数电机、传感器、控制系统，还需要训练数据、仿真环境、操作系统、AI模型和部署工具。以前，每个研究团队都要从零开始拼凑这些东西，仅仅搭建环境就可能耗费数月时间，真正的研发还没开始，人已经筋疲力尽。因此，英伟达决定直接提供一个参考平台。这个平台不只是一个机器人硬件，而是一整套体系：包含机器人本体，运行机器人的Jetson Thor计算平台，AI模型，仿真工具Isaac Lab，远程操作工具Isaac Teleop，用于生成合成数据的Omniverse和Cosmos，训练和评估环境，以及负责部署到真实机器人上的Isaac ROS。你可以把它理解为机器人界的“开发样机 + 操作系统 + 训练工具包”。研究者拿到GR00T后，无需再从零开始制造机器人、搭建仿真环境、连接传感器、编写底层系统，而是可以直接开始训练机器人执行具体任务，比如抓取物体、搬运物品、平稳行走，或在工厂中完成特定工作。研究者既可以使用英伟达的全套组件，也可以只选用其中一部分，并根据需要替换自己的模型、传感器或控制系统。黄仁勋介绍说，它有25个身体自由度，每只手31个自由度，身高大约6英尺（约1.83米），体重150磅（约68公斤）。这番描述的用意很明确：它是一个接近真人尺寸、能够执行复杂动作的人形机器人参考设计。

黄仁勋未来十年判断：AI趋势深度解析

01 重新定义AI PC

02 Vera Rubin和AI工厂

03 各种大模型

相关阅读

最新教程

最新资讯