时间:26-04-23
4月14日,河南郑州国家超算互联网核心节点迎来一个重磅消息:中科曙光正式发布了规模达6万卡的AI4S(AI for Science)计算集群,并宣布其已投入实际使用。这标志着国内AI4S领域的基础设施建设,迈上了一个全新的台阶。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
那么,这个“国内最大、没有之一”的集群,究竟强在哪里?简单来说,它围绕六大核心特征构建:强大算力、全面精度、高速互连、存算协同、灵活调度、稳定可靠。
先说算力。这个6万卡集群在超算算力和AI算力两个维度上,都达到了全球顶级水准。这意味着什么?从软件模型的优化迭代,到具体科研应用的效率提升,乃至未来科学智能体的开发训练,它都能提供坚实的支撑。
再看精度。科研计算的需求千差万别,有的需要高吞吐,有的则需要超高精度。为此,集群提供了从8位、16位到32位、64位的全精度计算支持,几乎覆盖了从AI训练到传统科学计算的所有场景。
有了强大的单点算力,如何让数万张计算卡高效协同工作,就成了关键。集群搭载了国内首款类InfiniBand无损高速网络产品——scaleFabric系列,专门应对AI4S计算对高带宽、低时延网络的极致需求。
算得快,还得数据供得上。存储I/O常常是大型计算集群的隐形瓶颈。曙光这次给出的方案是“三层协同、五档加速”,从芯片、系统到应用层进行传输协同优化,核心目标就是确保计算单元“永不饥饿”,让数据流畅通无阻。
硬件堆砌只是第一步,如何智能、高效地管理这些海量资源才是真功夫。该集群实现了每秒超过10000次的并发作业调度效率。秘诀在于多元融合的调度策略,结合数据亲和性算法,使得超算任务和智算任务可以在同一套资源池中灵活调配,真正实现了“超智融合”。
稳定是生命线。集群采用浸没相变液冷技术,并结合智能化运维与数字孪生系统,将系统可用性提升至99.99%的高水准。更值得一提的是其绿色设计:采用湖水冷却与余热回收方案,从湖中取水,退水温度升高严格控制在1℃以内,回收的余热还可用于供暖,实现了近乎零水耗(等效WUE≈0),每年可减少二氧化碳排放约4万吨。
硬件参数再耀眼,最终价值还是要落到实际应用中。为此,曙光同步推出了国内首个科学大模型一站式开发平台——OneScience。这个平台集成了数十个AI4S热点模型及数据集,覆盖地球科学、生物信息、流体仿真、材料化学等多个前沿学科。
其交互方式也极具碘伏性:用户只需通过自然语言描述科研需求,系统便能自动拆解任务、调度算力资源。这种模式,有望将许多传统上需要数天完成的科研任务,压缩到小时级别。
目前,该集群已在多个核心科研场景中展现出巨大威力:
在生命科学领域,依托3万卡规模进行的蛋白质折叠模拟,相比传统算法实现了超过1000倍的加速。
在材料科学领域,利用4.5万卡完成了万亿原子液态水分子动力学模拟,不仅打破了世界模拟规模纪录,更将模拟能力提升了三个数量级以上。
在流体力学领域,实现了智能湍流直接模拟,将计算规模扩展至百万亿网格级别。
随着这个6万卡集群的全面落地,国家超算互联网平台已经构建起国内规模最大的AI4S计算基础设施。目前,平台总计链接了超过300万CPU核心和20万GPU卡,并已接入全国一体化算力网络调度体系。这不仅仅是一个集群的诞生,更标志着一个以AI驱动科学研究的新时代,拥有了国产化的核心算力基座。