英伟达微软AI智能体部署栈：端到端提速与工厂上线

2026-06-03阅读 0热度 0

英伟达

在微软Build 2026开发者大会首日，台北与会场之间的一段实时连线成为焦点——英伟达CEO黄仁勋远程接入微软CEO萨提亚·纳德拉的主题演讲。双方围绕RTX Spark、DGX Station for Windows、Foundry平台上的NVIDIA开放模型、GitHub Copilot中的OpenShell安全运行时，以及下一代AI工厂等关键合作项目，展开了密集且具实质性的对谈。

更值得关注的是，微软与英伟达宣布达成一系列深度合作，并在Build大会上展示了一个横跨Windows设备、Azure云与本地部署的统一加速计算栈。该栈的设计目标清晰——为开发者构建、运行和扩展AI智能体与物理AI提供真正的端到端支撑。

Windows设备端：两套硬件，各自定位清晰

先从设备层面看。英伟达与微软重新定义了面向AI智能体时代的PC，推出两款定位截然不同的产品。

RTX Spark是首批专为个人智能体打造的Windows PC平台。其规格令人瞩目：1 petaflop的AI算力、最高128GB统一内存、一整天的续航时间，以及无衰减的离电AI与图形性能。这意味着即便拔掉电源，AI推理和图形绘制也不会降级。该平台集成了CUDA、RTX、DLSS和TensorRT等英伟达三十余年技术积累，搭载RTX Spark的笔记本和小型台式机将于今秋由微软Surface、华硕、戴尔、惠普、联想和微星等厂商推出。

而DGX Station for Windows，则是另一套方案。它被定义为当前性能最强的桌面级AI超级计算机，搭载NVIDIA GB300 Grace Blackwell Ultra桌面超级芯片，配备最高748GB统一内存和20 petaflops FP4性能。具体来说，它可以在本地运行最高1万亿参数的先进模型。这套系统预计于第四季度由华硕、戴尔、技嘉、惠普、微星和超微等厂商推出。值得注意的是，两款产品都运行NVIDIA OpenShell——一个面向自主智能体的安全设计运行时。

模型与平台：开放模型落地，Claude也来了

在模型与平台层面，NVIDIA的开放模型组合正式登陆微软Foundry。其中，Nemotron 3 Ultra作为一款面向编码、科研和企业工作流中长期运行智能体的新型开放前沿推理模型，将于本月在Foundry托管计算上可用。同时上线的还有用于语音识别的Nemotron 3.5 ASR和Nemotron 3.5内容安全模型。

此外，Anthropic的Claude模型现在也可以在Azure上的NVIDIA GB300 Blackwell Ultra系统中原生运行，未来数周内向客户开放。这意味着开发者调用Claude时，底层跑的是英伟达的最新硬件。

对于开发者而言，NVIDIA Agent Toolkit和NVIDIA NemoClaw蓝图提供了在Foundry上打造生产级智能体的开源平台。而CUDA-X库（包括cuDF、cuOpt、AI-Q和NeMo）现在也作为领域专用技能对智能体可用，意味着开发者可以直接调用这些经过验证的高性能库。

数据层：加速计算嵌入数据仓库，SQL提升明显

数据层面有一个容易被忽略但影响深远的动作：NVIDIA加速计算现已内置到微软Fabric Data Warehouse中。微软内部基准测试显示，SQL执行速度达到CPU基线的最高6倍，在高并发负载下相比其他三家主流云数据仓库提供商最高可达7倍。这不是一蹴而就的结果，两家公司表示，这是从研究到生产的多年深度工程协作成果。这句话背后的含义是：企业数据层已经快要跟上AI智能体持续查询与推理的速度了。

物理AI：统一平台，开放模型

在物理AI领域，微软正在将NVIDIA的开源物理AI技能和工具与Azure及物理AI工具链进行整合。这为开发者提供了一个基于Cosmos 3混合Transformer架构的统一平台，用于仿真、训练和部署机器人、自动驾驶车辆及工业系统等自主系统。Cosmos 3在视觉推理、世界生成和动作生成等关键基准测试中位列开放模型第一位——这是有数据支撑的。

针对本地部署场景，微软将Azure Local上的Foundry Local引入NVIDIA RTX PRO 6000 Blackwell Server Edition平台，配合Nemotron开放模型家族。企业可以在本地、混合或主权环境中运行高性能AI负载。Foundry Local on Azure Local现在支持多节点部署和vLLM运行时。

安全与基础设施：开源运行时与提前上线的AI工厂

安全方面，NVIDIA OpenShell已集成至GitHub Copilot。其设计思路值得关注：每个智能体在其独立的沙箱容器中运行，每一次对外调用在触及文件、网络或凭证之前，都会根据策略进行评估。策略以代码形式编写并在仓库中版本化管理，可即时更新。OpenShell基于Apache 2.0开源协议，与模型无关，覆盖本地、混合和云环境。

最后看基础设施。微软位于威斯康星州费尔沃特的AI工厂已提前上线，运行数十万套NVIDIA Grace Blackwell系统，并与佐治亚州的一座同类AI工厂互联，构成可扩展的分布式AI系统。黄仁勋在连线中亲口承认：微软部署了最多的Blackwell芯片。这句话的分量，行业内的人都懂。

与此同时，微软已对NVIDIA Vera Rubin平台完成验证，该平台现已全面投产，将部署至Azure数据中心。Vera Rubin无需改造即可与Blackwell并行部署，每兆瓦推理吞吐量提升最高10倍，每个智能体token成本降低一个数量级，并内置NVIDIA机密计算以保护模型和数据安全。这才是真正的“下一代AI工厂”该有的样子。

参考资料：

《Scaling multi-node LLM inference with NVIDIA Dynamo-Grove on AKS (Part 4) | AKS Engineering Blog》

英伟达微软AI智能体部署栈：端到端提速与工厂上线

Windows设备端：两套硬件，各自定位清晰

模型与平台：开放模型落地，Claude也来了

数据层：加速计算嵌入数据仓库，SQL提升明显

物理AI：统一平台，开放模型

安全与基础设施：开源运行时与提前上线的AI工厂

相关阅读

最新教程

最新资讯