高通量以太网ETH+协议测评:解锁AI算力瓶颈的智算新方案
AI技术的指数级演进,正将全球算力需求推至历史峰值。这场由海量数据驱动的智能变革,如同一股洪流,既为高性能计算领域注入了前所未有的动能,也对其底层技术架构提出了极限挑战。从算法模型到硬件加速,从系统设计到网络传输,每个环节都呼唤着突破性创新,以承载规模持续膨胀的计算密集型负载。
网络架构已成为关键瓶颈。传统数据中心网络基于通用业务设计,其“尽力而为”的传输模式,在追求确定性与超高吞吐的AI算力场景下逐渐显露疲态。构建一个能够支撑AI时代高性能、高可靠、高弹性需求的智算网络,成为产业必须攻克的核心课题。
阿里云研发副总裁、基础设施网络负责人蔡德忠
破局点已然显现。在近期召开的CCF全国高性能计算学术年会上,由阿里云、中国科学院计算技术研究所等四十余家机构组成的“高通量以太网联盟”,正式发布了ETH+协议1.0标准。与之协同的网络协议IP、开源网卡等硬件与系统方案同步公开。这标志着,以开放生态与极致性能为导向的新一代智算网络,正从技术标准加速迈向产业部署。
高通量以太网ETH+协议发布现场
该协议带来了哪些实质性提升?据联盟共同主席、阿里云蔡德忠介绍,ETH+协议从多个维度实现了关键技术革新。其一,通过优化帧格式,将有效载荷比提升了74%,显著提升了数据传输效率。其二,深度融合链路层与物理层的重传机制,大幅增强了网络的语义可靠性。其三,基于RDMA在网计算技术,实现了集合通信性能超过30%的提升。这些优化精准针对传统以太网在AI负载下的短板,旨在使其真正满足智算网络对性能与稳定性的严苛要求。
联盟供图
选择以太网并推动其深度演进,源于对产业生态的深刻洞察。智算网络的根基在于网络协议,其角色堪比智能设备的操作系统。私有协议往往与特定硬件强绑定,易形成技术壁垒;而开放的以太网协议,凭借其共建共享的基因,获得了更广泛的产业链支持。ETH+协议正是坚定地选择了后一条开放路径。
“联盟汇聚了产学研用各方力量,目标是在开放以太网生态之上,面向智算场景,研发并制定统一的技术标准与基础架构。”蔡德忠指出。这种协同机制不仅促进了国内芯片企业间的技术对话与联合攻关,也加速了创新技术的产品化进程。他透露,目前已有多个芯片厂商基于ETH+协议研发相应产品,预计明年初,首批搭载国产网络芯片的算力集群将陆续交付。
本次发布的成果具备完整的体系性。除核心协议标准外,与之配套的开源硬件IP、商业版IP、全链路验证体系及基准测试集同步推出。其中,基于ETH+协议的基础网络层IP已实现大规模商用部署,开源的RDMA网卡设计也为行业提供了关键参考实现。
从协议标准到硬件落地,一条清晰的产业化路径已然成型。业界对ETH+协议的未来抱以高度期待。随着更多产学研机构的持续加入与深度协作,这套由中国产业界深度主导并推动的开放网络标准,有望在全球智算网络的技术演进与生态构建中,发挥日益重要的引领作用。


