NVIDIA Vera CPU科学AI代理深度评测与推荐
我们在高性能计算和科学计算领域,又迎来了一个重量级消息。洛斯阿拉莫斯国家实验室(LANL)宣布,将携手HPE和NVIDIA,打造三台全新的超级计算机——代号分别是Mission、Vision和Veritas。这三台机器的核心看点?它们全面采用了NVIDIA Vera CPU,目标直指加速科学发现,并为所谓的“袋里式科学AI”铺平道路。
这套新系统基于HPE Cray Supercomputing GX5000架构,并与NVIDIA Vera Rubin平台深度整合。具体来说,它集成了NVIDIA Vera CPU、NVIDIA Rubin GPU以及NVIDIA Quantum-X800 InfiniBand网络。在规划中,Mission超级计算机将配备NVIDIA Vera Rubin GPU节点,以及多达2300颗独立的NVIDIA Vera CPU(采用HPE Cray GX240刀片架构)。而Veritas,则会搭载约1150颗独立Vera CPU,作为对Vera Rubin节点的补充。
值得一提的是,Veritas将与Mission和Vision同步上线,专门服务于实验室的“实验室指导研究与发展计划”(LDRD)。它的使命很明确:加速“袋里式科学AI”的实现。这套系统将作为试验田,为未来在LANL建造更大规模系统进行技术验证。
研究人员正在为科学引入一种全新的工具——AI袋里。这些袋里能够自主形成假设、选择工具、启动模拟、分析输出结果,并迭代优化下一步行动。LANL此前公开的URSA(通用研究与科学袋里)项目,就是这一方向的前瞻性探索。URSA目前运行在Venado系统上,很快也将部署至Mission和Vision。它是一种模块化、由反馈驱动的AI框架,旨在帮助科学家头脑风暴假设、规划实验、运行模拟并分析结果。LANL的测试显示,在处理URSA工作负载时,Vera CPU的性能是Crossroads x86超级计算机CPU的7倍。
Vera CPU:专为AI袋里与科学模拟而生
在LANL对NVIDIA Vera CPU的早期测试中,他们使用了开源蒙特卡洛热传导模拟工具——Branson。结果令人印象深刻:Vera的表现超过了Crossroads x86超级计算机所用CPU的3倍以上。这背后的功臣,是Vera CPU自身的设计,包括其定制的Olympus核心、LPDDR5内存和高速片上互联架构。
具体来说,一颗单独的Vera CPU,性能是单路x86 CPU的三倍多,同时每核内存带宽是后者的4倍,每节点内存更是达到了6倍。对于LANL而言,这直接意味着科学成果的加速产出。并且,实验室所有的超级计算机都是由硬件架构师、系统软件开发者、领域科学家、计算机科学家和应用数学家联合设计的——这确保了整个系统是由真实的科学工作负载塑造,而非仅凭抽象的基准测试。
站在历代系统之上:从Venado到Mission
按计划,Mission超级计算机将于2027年投入运行。它将成为美国国家核安全局(NNSA)先进模拟与计算(ASC)计划中的第五台先进技术系统,并取代Crossroads,承载机密的国防安全工作负载。同样在2027年上线的Vision,则将作为基础科学的资源平台,覆盖材料科学、核科学、能源建模、生物医学研究以及AI等领域。它能让更多科学家在进入更高阶、更关键的工作之前,先在这里测试方法、训练模型、探索想法。
这项合作成果,是LANL与NVIDIA在CPU领域长达十多年深度协作的延续。从Grace到Vera,双方一直秉持“极限协同设计”的理念,专门针对LANL的模拟工作负载进行优化。这三台新超级计算机,正是建立在2024年部署于洛斯阿拉莫斯的Venado系统基础之上。Venado是一台HPE Cray EX超级计算机,搭载了NVIDIA GH200 Grace Hopper超级芯片和NVIDIA Grace CPU超级芯片。
