英伟达微软AI智能体部署栈:端到端提速与工厂上线
在微软Build 2026开发者大会首日,台北与会场之间的一段实时连线成为焦点——英伟达CEO黄仁勋远程接入微软CEO萨提亚·纳德拉的主题演讲。双方围绕RTX Spark、DGX Station for Windows、Foundry平台上的NVIDIA开放模型、GitHub Copilot中的OpenShell安全运行时,以及下一代AI工厂等关键合作项目,展开了密集且具实质性的对谈。
更值得关注的是,微软与英伟达宣布达成一系列深度合作,并在Build大会上展示了一个横跨Windows设备、Azure云与本地部署的统一加速计算栈。该栈的设计目标清晰——为开发者构建、运行和扩展AI智能体与物理AI提供真正的端到端支撑。
Windows设备端:两套硬件,各自定位清晰
先从设备层面看。英伟达与微软重新定义了面向AI智能体时代的PC,推出两款定位截然不同的产品。
RTX Spark是首批专为个人智能体打造的Windows PC平台。其规格令人瞩目:1 petaflop的AI算力、最高128GB统一内存、一整天的续航时间,以及无衰减的离电AI与图形性能。这意味着即便拔掉电源,AI推理和图形绘制也不会降级。该平台集成了CUDA、RTX、DLSS和TensorRT等英伟达三十余年技术积累,搭载RTX Spark的笔记本和小型台式机将于今秋由微软Surface、华硕、戴尔、惠普、联想和微星等厂商推出。
而DGX Station for Windows,则是另一套方案。它被定义为当前性能最强的桌面级AI超级计算机,搭载NVIDIA GB300 Grace Blackwell Ultra桌面超级芯片,配备最高748GB统一内存和20 petaflops FP4性能。具体来说,它可以在本地运行最高1万亿参数的先进模型。这套系统预计于第四季度由华硕、戴尔、技嘉、惠普、微星和超微等厂商推出。值得注意的是,两款产品都运行NVIDIA OpenShell——一个面向自主智能体的安全设计运行时。
模型与平台:开放模型落地,Claude也来了
在模型与平台层面,NVIDIA的开放模型组合正式登陆微软Foundry。其中,Nemotron 3 Ultra作为一款面向编码、科研和企业工作流中长期运行智能体的新型开放前沿推理模型,将于本月在Foundry托管计算上可用。同时上线的还有用于语音识别的Nemotron 3.5 ASR和Nemotron 3.5内容安全模型。
此外,Anthropic的Claude模型现在也可以在Azure上的NVIDIA GB300 Blackwell Ultra系统中原生运行,未来数周内向客户开放。这意味着开发者调用Claude时,底层跑的是英伟达的最新硬件。
对于开发者而言,NVIDIA Agent Toolkit和NVIDIA NemoClaw蓝图提供了在Foundry上打造生产级智能体的开源平台。而CUDA-X库(包括cuDF、cuOpt、AI-Q和NeMo)现在也作为领域专用技能对智能体可用,意味着开发者可以直接调用这些经过验证的高性能库。
数据层:加速计算嵌入数据仓库,SQL提升明显
数据层面有一个容易被忽略但影响深远的动作:NVIDIA加速计算现已内置到微软Fabric Data Warehouse中。微软内部基准测试显示,SQL执行速度达到CPU基线的最高6倍,在高并发负载下相比其他三家主流云数据仓库提供商最高可达7倍。这不是一蹴而就的结果,两家公司表示,这是从研究到生产的多年深度工程协作成果。这句话背后的含义是:企业数据层已经快要跟上AI智能体持续查询与推理的速度了。
物理AI:统一平台,开放模型
在物理AI领域,微软正在将NVIDIA的开源物理AI技能和工具与Azure及物理AI工具链进行整合。这为开发者提供了一个基于Cosmos 3混合Transformer架构的统一平台,用于仿真、训练和部署机器人、自动驾驶车辆及工业系统等自主系统。Cosmos 3在视觉推理、世界生成和动作生成等关键基准测试中位列开放模型第一位——这是有数据支撑的。
针对本地部署场景,微软将Azure Local上的Foundry Local引入NVIDIA RTX PRO 6000 Blackwell Server Edition平台,配合Nemotron开放模型家族。企业可以在本地、混合或主权环境中运行高性能AI负载。Foundry Local on Azure Local现在支持多节点部署和vLLM运行时。
安全与基础设施:开源运行时与提前上线的AI工厂
安全方面,NVIDIA OpenShell已集成至GitHub Copilot。其设计思路值得关注:每个智能体在其独立的沙箱容器中运行,每一次对外调用在触及文件、网络或凭证之前,都会根据策略进行评估。策略以代码形式编写并在仓库中版本化管理,可即时更新。OpenShell基于Apache 2.0开源协议,与模型无关,覆盖本地、混合和云环境。
最后看基础设施。微软位于威斯康星州费尔沃特的AI工厂已提前上线,运行数十万套NVIDIA Grace Blackwell系统,并与佐治亚州的一座同类AI工厂互联,构成可扩展的分布式AI系统。黄仁勋在连线中亲口承认:微软部署了最多的Blackwell芯片。这句话的分量,行业内的人都懂。
与此同时,微软已对NVIDIA Vera Rubin平台完成验证,该平台现已全面投产,将部署至Azure数据中心。Vera Rubin无需改造即可与Blackwell并行部署,每兆瓦推理吞吐量提升最高10倍,每个智能体token成本降低一个数量级,并内置NVIDIA机密计算以保护模型和数据安全。这才是真正的“下一代AI工厂”该有的样子。
参考资料:
《Scaling multi-node LLM inference with NVIDIA Dynamo-Grove on AKS (Part 4) | AKS Engineering Blog》
