联想异构智算平台解析:超智融合如何引领算力新趋势

2026-05-16阅读 0热度 0
联想

9月24日至26日,第20届CCF全国高性能计算学术年会在武汉召开。联想以“异构智算 稳定高效”为主题,系统展示了其“一横五纵”算力基础设施战略,以及覆盖AI与科学计算的联想万全异构智算平台整体解决方案。

面对AI驱动的产业变革,构建稳定高效的智能算力基础设施已成为企业转型的核心。联想的应对策略是,提供一套布局完整、性能可靠的AI基础设施,为企业智能化升级铺平道路。

在大会论坛上,联想中国基础设施业务群战略管理总监黄山发表了“筑基新质算力 纵横数字未来”的主题演讲,深度解读了当前国产算力发展的关键瓶颈与突破路径。

黄山在演讲中指出,“超智融合”已成为高性能计算(HPC)的明确趋势,标志着行业正从传统通用计算主导的科学计算,全面转向异构加速的AI计算。联想在异构智算平台的前瞻性布局,正是基于对这一技术趋势的精准把握。

洞察算力新趋势,联想布局异构智算

当前,国内千卡、万卡级算力集群已进入实践阶段,但向十万卡乃至更大规模扩展,仍面临系统性挑战。国产算力的瓶颈主要集中在四个层面:

首先,多元异构的处理器、服务器、存储及网络硬件,其兼容性与互操作性设计本身就是一项复杂的系统工程。其次,AI训练集群故障频发成为常态——一个千卡集群每月可能发生超过15次训练中断,这使得高效的故障诊断与快速恢复能力,成为保障算力服务等级协议(SLA)的核心。再次,算力实际利用率仍有较大提升空间,必须优化投入产出比,才能支撑算力经济的可持续发展。最后,散热瓶颈不容忽视,智算算力的持续演进,依赖于液冷技术与方案设计的持续创新。

应对这些挑战,“超智融合”被视为关键路径。今年4月,联想正式发布的万全异构智算平台,正是针对上述痛点打造的解决方案,旨在实现“算力好用”的最终目标。该平台构成了联想“一横五纵”战略中的核心“一横”;而“五纵”则覆盖了从服务器、存储、软件及超融合,到数据网络及边缘基础设施的全栈产品与方案。

万全异构智算平台集成了五大核心技术:算力匹配魔方、GPU内核态虚拟化、联想集合通信算法库、AI高效断点续训技术以及AI与HPC异构集群超级调度器。这些技术能够高度自动化地支持AI全流程开发,提供高可用的算力服务,并持续突破计算效率的极限。

黄山进一步阐释,该平台本质上是一个异构智算调度软件,它不同于标准的操作系统或虚拟化软件。这个新兴赛道由智算需求直接催生,目前尚无成熟标准。因此,联想的开发工作高度以客户实际需求为驱动,最初的版本便源于具体大型项目的直接需求。

他特别指出,开发过程中最深刻的体会是需求迭代极快:模型客户的应用场景迅速变化,软件栈复杂度高,加之缺乏标准参考,很可能上个月看似完美的架构设计,到了下个月就需要根据新的业务场景进行重构与优化。

国产GPU 算力将迎阶跃式提升

在破解算力难题、构建异构智算平台的过程中,联想同样面临诸多挑战。而破局的关键,在于生态共建。今年4月,在信通院指导下,联想牵头成立了万全异构智算平台生态产业联盟,首批汇聚了16家成员单位。其中包括7家与联想有实际方案合作的国产GPU厂商,以及Colossal-AI、智谱AI等算法与模型层面的合作伙伴。

谈及生态合作,黄山解释道,提升整体算力利用率,必须从芯片层到模型层进行协同优化,向上需要完善AI工具链、并行算法及整个开发生态。联想在其中主要贡献硬件能力与异构智算平台的集群管理调度能力,同时以开放架构兼容多元算力生态——硬件层面支持多样化的xPU,平台层面集成各类底层软件,并通过扩展接口对接和集成丰富的AI工具链生态。

一个重要的行业判断是,黄山认为国产GPU算力即将迎来一波阶跃式升级。在与生态伙伴的紧密协作中,他观察到,在过去一年多的时间里,至少有5到7家国产芯片厂商已经或即将在未来半年内推出新一代产品。由这些国产卡构建的万卡集群,完全有能力支撑国内大模型的持续训练与发展。

他进一步指出,目前市场上几家主要芯片厂商的应用场景各有侧重,形成了互补格局。要高效利用国产算力,往往需要整合多家芯片能力,未来生态中也可能涌现更多参与者。因此,首要任务就是做好这些异构芯片的统一管理与深度兼容——这正是联想已经完成基础构建并持续深耕的核心领域。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策