HPC China 2022:SCOW亮相,算网融合如何驱动东数西算工程
2022年12月13日,以“新算力 新赋能 新未来”为主题的CCF全国高性能计算学术年会(CCF HPC China 2022)在线上开幕。作为全球HPC领域三大顶级盛会之一,本届会议汇聚了包括2021年图灵奖得主Jack Dongarra、中国科学院院士陈国良与钱德沛、中国工程院院士陈左宁、孙凝晖、王军成以及加拿大工程院院士K. Nandakumar在内的众多权威学者。与会专家聚焦数字经济背景下的算力创新路径、高性能计算应用场景深化及前沿技术趋势,展开了深度研讨。
在大会第七届高校高性能计算平台应用交流论坛上,北京大学计算与数字经济研究院算力网络研究中心主任樊春发表了《北京大学高性能计算系统软件》专题报告。报告精准剖析了当前国内算力中心在运营管理中的核心瓶颈,并提出了系统性解决方案。此次分享也标志着由樊春团队自主研发的开源算力中心门户与管理平台——SCOW(Super Computing On Web)首次正式对外发布。
在全球科技与产业变革浪潮中,算力已成为国家核心竞争力的战略基石。构建高效算力网络是全球主要经济体的共同战略方向,布局持续加速。我国“东数西算”工程的全面实施,更是为全国一体化算力网络建设注入了强劲动力。然而,在共识推进的同时,现实挑战依然突出:算力中心管理运营复杂度高、算力资源使用门槛居高不下、系统运维部署流程繁琐等问题,严重制约了算力基础设施整体效能的释放。
源于实践:SCOW的诞生背景
北京大学计算与数字经济研究院落户长沙后,随即成立了算力网络研究中心。该中心团队长期深入算力中心运营一线,对用户真实需求与运维痛点有着深刻理解,积累了丰富的平台管理经验与前沿的互联网系统开发能力。经过十余年的持续研发与迭代,团队最终推出了开源平台SCOW。
该平台的设计目标清晰:通过简化集群软件部署、统一平台管理范式、提供直观的图形化操作界面,显著降低用户使用门槛。其核心是推动算力中心资源实现“易管理、易使用”,从而全面提升算力资源利用率。目前,SCOW已在北京大学超算平台、国家天文台超算平台、中南大学超算平台、中科院高能物理所超算平台及香侬云超算平台等多个场景完成部署与验证。
核心价值:三大维度破解算力应用难题
SCOW如何具体应对算力中心的核心痛点?其解决方案可从使用、管理和部署三个关键维度展开。
在使用层面,SCOW大幅降低了技术门槛。用户无需再面对复杂的SSH配置或VNC连接问题,通过SCOW提供的Web门户,即可在浏览器中直接调用集群算力资源并提交计算作业。这使得不熟悉Linux系统的科研人员与学生也能快速上手。
在管理层面,SCOW提供了一套标准化的运营管理框架。它确立了清晰的“租户-账户-用户”三级账户体系与配套的计费模型,并支持对算力中心内多个异构集群进行统一管控。这套体系能帮助新建算力中心快速构建规范、高效的运营管理制度。
在部署层面,SCOW的优势体现在其便捷性与兼容性。它提供了集成调度系统、认证系统与共享存储的一体化部署方案,助力新建集群快速上线。更重要的是,其部署过程几乎无侵入性,可与现有管理平台并行共存,有效避免了“推倒重来”的迁移成本与风险。
超越工具:为算力网络融合奠基
SCOW的战略价值,超越了单一算力中心的效率优化。其更深层意义在于为跨中心的算力融合与网络化调度提供了关键基础设施。SCOW所实现的标准化平台接口,如同为分散的算力“孤岛”建立了统一的接入端口与通信协议。
基于SCOW对异构平台的统一抽象能力,研究团队正在研发一体化算力网络融合平台。该平台旨在打通算力网络中各中心之间的管理、使用与结算通道,最终实现算力资源的灵活接入与智能调度。其中涉及多项关键技术挑战,包括多类型应用的无缝接入、复杂网络环境下的低延迟高性能可视化、跨中心文件传输与管理、标准化运营流程以及多中心统一结算机制等,均是团队重点攻关的方向。
推动算力网络融合的实践已先行展开。在2022年11月26日的数字生态指数2022发布会上,北京大学计算与数字经济研究院联合湖南省内多家机构,共同发起成立了“湖南算力网络融合协同创新平台”,旨在加速一体化新型算力网络体系的构建。SCOW系统的发布,标志着该创新平台的相关工作正式进入实施阶段。
下一步,研究院计划在国内外高校、科研机构、国家超算中心及商业计算集群中进一步推广部署SCOW。同时,团队将持续研发面向未来算力网络的新产品与技术。所有这些努力都指向同一个目标:优化我国整体算力资源的配置与使用效率,为构建高效协同的全国性算力网络体系提供坚实支撑。


