磐脉920智能网卡测评：平头哥如何补齐AI算力最后短板？

2026-05-17阅读 0热度 0

GPU堆砌如山，实际运行时却遭遇“网络拥堵”？这是当前众多AI工程师面临的效率瓶颈。

算力无疑是AI行业的核心议题。从大规模模型训练到智能体应用部署，再到全球云服务商竞相扩建智算中心，讨论焦点始终围绕GPU、芯片与集群规模。一种普遍的误解是：算力规模等同于AI性能。

现实情况更为复杂。许多从事大模型训练与推理的团队发现，硬件成本持续攀升，单卡算力不断增强，但集群的整体产出效率并未实现线性增长。问题的根源往往不在于算力本身，而在于一个长期被忽视的关键基础设施——网络能力。

平头哥产品总监李旭慧对此有一个精准的类比：“算力是AI时代的能源，网络则是输送能源的管道。算力决定潜力，网络决定效率。”

近期，平头哥发布了其首款智能网卡产品：磐脉920。作为国内首款集成PCIe Switch的400G智能网卡，其最大吞吐带宽达到400Gbps，主要面向万卡级智算集群、通用计算集群及高性能存储场景。该产品目前已进入量产阶段，并将率先在阿里云数据中心规模部署。

磐脉920的核心设计目标，正是突破网络瓶颈对算力效率的制约。

现代大模型训练依赖于成千上万张GPU的协同工作。单卡性能再优异，也必须与集群中其他节点保持同步。一旦部分节点因网络延迟或拥塞而“掉队”，整个集群的计算进程都将被迫等待。行业数据显示，许多万卡级智算集群的GPU实际利用率并不高，“能达到60%已属行业领先水平”。

过去，行业焦点集中于“拥有多少算力卡”。然而在分布式AI训练中，系统整体效率并非由最强节点决定，而是受限于集群中最慢的环节。“领先节点的算力在等待中持续闲置，造成显著的资源浪费。”磐脉920的推出，清晰地指出了下一个优化方向：当GPU单卡算力达到一定高度后，网络互联能力成为释放整体算力潜力的关键。

一张网卡，盘活整个智算集群

随着AI智能体深入实际业务，推理任务的比例正在快速上升。“在智能体应用爆发的趋势下，推理业务的增长速率已显著超过训练业务。”李旭慧指出。

大模型训练强调强同步性，而推理业务则面临海量、突发、小数据包且高频率的请求，对网络延迟的稳定性和极致低时延提出了更苛刻的要求，这直接考验着底层“网力”的支撑能力。

简而言之，磐脉920致力于消除系统中的“拥堵点”与“等待时间”，通过提升网络传输效率来充分释放AI算力价值。其技术实现依赖于三项核心设计。

第一，支持多路径RDMA，突破单一路径带宽限制。

这类似于将单车道高速公路扩展为多车道并行，且数据包虽经不同路径传输，最终能按序精准重组。李旭慧解释，磐脉920通过支持逐包喷洒、乱序接收和选择性重传机制，实现了高效的RDMA多路径传输。

效果直接体现在性能上。实测数据显示，磐脉920支持单队列对（QP）打满400G带宽，而同类主流产品的带宽通常仅为一半。同时，多路径能力可将交换机端口缓冲区的拥塞水线降低90%，有效减少数据包丢失与重传。

第二，将“绕行”架构优化为“直连”架构。

磐脉920的一个显著创新是内置了PCIe Switch，这也是国内400G智能网卡首次采用此设计。在传统服务器架构中，PCIe Switch位于主板上，数据需经多级转发，导致路径长度不一、时延波动。对于要求严格同步的AI训练任务，这种不一致性会直接拖慢整体进度。

李旭慧比喻道：传统架构中常出现“四个下行通道争抢一个上行通道”的局面，如同多条支流汇入单一干道，拥堵难以避免。磐脉920将PCIe Switch集成至芯片内部，使网卡与CPU、GPU之间建立了更直接、统一的连接路径。更短的路径意味着更低的时延，统一的路径则带来了更稳定的同步性能。根据平头哥实测，在相同集群规模与任务负载下，部署磐脉920可使大模型训练与推理任务的完成时间缩短14%。

第三，赋予网络主动感知与调度能力。

传统网卡角色相对被动，主要负责数据接收与转发。而磐脉920引入了细粒度网络感知与可编程拥塞控制能力。这意味着它能主动识别并规避网络拥塞，实现从被动传输到主动调度的转变。对于拓扑日益复杂的AI计算集群，这种智能化能力至关重要。

从这些设计可以看出，磐脉920并非追求单纯的参数领先，其目标极为务实：最大限度地减少已投入的巨额算力资源的闲置与浪费，从而激发集群的整体潜能。

为何是阿里在定义AI基础设施？

除了产品性能，磐脉920背后更值得关注的是平头哥与阿里的整体技术布局逻辑。

过去几年，许多芯片公司的研发集中于单一领域，如GPU、AI加速卡或CPU。平头哥选择的是全栈技术路径。目前，其已形成四条核心产品线：真武系列AI芯片、倚天服务器CPU、镇岳存储主控芯片，以及此次发布的磐脉系列智能网卡。它们完整覆盖了数据中心的核心要素：算力、存力与网力。

李旭慧在采访中强调：“单一芯片无法解决系统级瓶颈，只有协同优化算力、存力、网力，才能最大化释放AI硬件性能。”这正是平头哥与众多单点芯片厂商的区别——它并非仅打造一颗更快的芯片，而是致力于从系统层面审视和解决效率问题。

许多芯片公司的路径是“先有产品，再寻找应用场景”。平头哥的模式则有所不同。李旭慧透露，磐脉920立项时，AI智能体尚未成为行业热点。团队是基于阿里云自身大规模业务的前瞻性判断，认定未来AI发展必将驱动数据中心网络架构升级。“一线业务场景的真实需求，是芯片技术迭代与产品定义的核心驱动力。”先有阿里云的海量业务场景，再从场景需求中反向定义芯片产品，这是磐脉920的商业化路径。据悉，与平头哥的倚天、真武、镇岳系列芯片一样，它将率先在阿里云数据中心实现规模化应用。

从这个视角看，磐脉920的发布，是阿里“通云哥”协同体系能力的一次具体展现。通义大模型负责算法创新，阿里云提供复杂业务场景与部署环境，平头哥则攻坚底层硬件。模型需求推动云基础设施升级，云上场景又反向驱动芯片架构演进。这种全栈自研的闭环模式，在国内科技公司中构建了独特优势。“通云哥”模式虽前期投入巨大、研发周期长，但一旦贯通，所构建的技术与生态护城河也将极为深厚。

AI竞争演进至今，已不再是单点技术的比拼，而是整个系统能否高效、流畅协同运作的较量。随着AI应用重心从训练向推理迁移，模型、云服务与芯片之间形成的持续反馈与优化循环，其带来的系统性优势，或许才刚刚开始释放。

磐脉920智能网卡测评：平头哥如何补齐AI算力最后短板？

一张网卡，盘活整个智算集群

为何是阿里在定义AI基础设施？

相关阅读

最新教程

最新资讯