磐脉920智能网卡测评:平头哥如何补齐AI算力最后短板?

2026-05-17阅读 0热度 0
ai

GPU堆砌如山,实际运行时却遭遇“网络拥堵”?这是当前众多AI工程师面临的效率瓶颈。

算力无疑是AI行业的核心议题。从大规模模型训练到智能体应用部署,再到全球云服务商竞相扩建智算中心,讨论焦点始终围绕GPU、芯片与集群规模。一种普遍的误解是:算力规模等同于AI性能。

现实情况更为复杂。许多从事大模型训练与推理的团队发现,硬件成本持续攀升,单卡算力不断增强,但集群的整体产出效率并未实现线性增长。问题的根源往往不在于算力本身,而在于一个长期被忽视的关键基础设施——网络能力。

平头哥产品总监李旭慧对此有一个精准的类比:“算力是AI时代的能源,网络则是输送能源的管道。算力决定潜力,网络决定效率。”

近期,平头哥发布了其首款智能网卡产品:磐脉920。作为国内首款集成PCIe Switch的400G智能网卡,其最大吞吐带宽达到400Gbps,主要面向万卡级智算集群、通用计算集群及高性能存储场景。该产品目前已进入量产阶段,并将率先在阿里云数据中心规模部署。

磐脉920的核心设计目标,正是突破网络瓶颈对算力效率的制约。

现代大模型训练依赖于成千上万张GPU的协同工作。单卡性能再优异,也必须与集群中其他节点保持同步。一旦部分节点因网络延迟或拥塞而“掉队”,整个集群的计算进程都将被迫等待。行业数据显示,许多万卡级智算集群的GPU实际利用率并不高,“能达到60%已属行业领先水平”。

过去,行业焦点集中于“拥有多少算力卡”。然而在分布式AI训练中,系统整体效率并非由最强节点决定,而是受限于集群中最慢的环节。“领先节点的算力在等待中持续闲置,造成显著的资源浪费。”磐脉920的推出,清晰地指出了下一个优化方向:当GPU单卡算力达到一定高度后,网络互联能力成为释放整体算力潜力的关键。

一张网卡,盘活整个智算集群

随着AI智能体深入实际业务,推理任务的比例正在快速上升。“在智能体应用爆发的趋势下,推理业务的增长速率已显著超过训练业务。”李旭慧指出。

大模型训练强调强同步性,而推理业务则面临海量、突发、小数据包且高频率的请求,对网络延迟的稳定性和极致低时延提出了更苛刻的要求,这直接考验着底层“网力”的支撑能力。

简而言之,磐脉920致力于消除系统中的“拥堵点”与“等待时间”,通过提升网络传输效率来充分释放AI算力价值。其技术实现依赖于三项核心设计。

第一,支持多路径RDMA,突破单一路径带宽限制。

这类似于将单车道高速公路扩展为多车道并行,且数据包虽经不同路径传输,最终能按序精准重组。李旭慧解释,磐脉920通过支持逐包喷洒、乱序接收和选择性重传机制,实现了高效的RDMA多路径传输。

效果直接体现在性能上。实测数据显示,磐脉920支持单队列对(QP)打满400G带宽,而同类主流产品的带宽通常仅为一半。同时,多路径能力可将交换机端口缓冲区的拥塞水线降低90%,有效减少数据包丢失与重传。

第二,将“绕行”架构优化为“直连”架构。

磐脉920的一个显著创新是内置了PCIe Switch,这也是国内400G智能网卡首次采用此设计。在传统服务器架构中,PCIe Switch位于主板上,数据需经多级转发,导致路径长度不一、时延波动。对于要求严格同步的AI训练任务,这种不一致性会直接拖慢整体进度。

李旭慧比喻道:传统架构中常出现“四个下行通道争抢一个上行通道”的局面,如同多条支流汇入单一干道,拥堵难以避免。磐脉920将PCIe Switch集成至芯片内部,使网卡与CPU、GPU之间建立了更直接、统一的连接路径。更短的路径意味着更低的时延,统一的路径则带来了更稳定的同步性能。根据平头哥实测,在相同集群规模与任务负载下,部署磐脉920可使大模型训练与推理任务的完成时间缩短14%。

第三,赋予网络主动感知与调度能力。

传统网卡角色相对被动,主要负责数据接收与转发。而磐脉920引入了细粒度网络感知与可编程拥塞控制能力。这意味着它能主动识别并规避网络拥塞,实现从被动传输到主动调度的转变。对于拓扑日益复杂的AI计算集群,这种智能化能力至关重要。

从这些设计可以看出,磐脉920并非追求单纯的参数领先,其目标极为务实:最大限度地减少已投入的巨额算力资源的闲置与浪费,从而激发集群的整体潜能。

为何是阿里在定义AI基础设施?

除了产品性能,磐脉920背后更值得关注的是平头哥与阿里的整体技术布局逻辑。

过去几年,许多芯片公司的研发集中于单一领域,如GPU、AI加速卡或CPU。平头哥选择的是全栈技术路径。目前,其已形成四条核心产品线:真武系列AI芯片、倚天服务器CPU、镇岳存储主控芯片,以及此次发布的磐脉系列智能网卡。它们完整覆盖了数据中心的核心要素:算力、存力与网力。

李旭慧在采访中强调:“单一芯片无法解决系统级瓶颈,只有协同优化算力、存力、网力,才能最大化释放AI硬件性能。”这正是平头哥与众多单点芯片厂商的区别——它并非仅打造一颗更快的芯片,而是致力于从系统层面审视和解决效率问题。

许多芯片公司的路径是“先有产品,再寻找应用场景”。平头哥的模式则有所不同。李旭慧透露,磐脉920立项时,AI智能体尚未成为行业热点。团队是基于阿里云自身大规模业务的前瞻性判断,认定未来AI发展必将驱动数据中心网络架构升级。“一线业务场景的真实需求,是芯片技术迭代与产品定义的核心驱动力。”先有阿里云的海量业务场景,再从场景需求中反向定义芯片产品,这是磐脉920的商业化路径。据悉,与平头哥的倚天、真武、镇岳系列芯片一样,它将率先在阿里云数据中心实现规模化应用。

从这个视角看,磐脉920的发布,是阿里“通云哥”协同体系能力的一次具体展现。通义大模型负责算法创新,阿里云提供复杂业务场景与部署环境,平头哥则攻坚底层硬件。模型需求推动云基础设施升级,云上场景又反向驱动芯片架构演进。这种全栈自研的闭环模式,在国内科技公司中构建了独特优势。“通云哥”模式虽前期投入巨大、研发周期长,但一旦贯通,所构建的技术与生态护城河也将极为深厚。

AI竞争演进至今,已不再是单点技术的比拼,而是整个系统能否高效、流畅协同运作的较量。随着AI应用重心从训练向推理迁移,模型、云服务与芯片之间形成的持续反馈与优化循环,其带来的系统性优势,或许才刚刚开始释放。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策