英伟达与OpenAI等巨头联合发布MRC协议:重塑AI训练网络架构的权威技术解析

2026-05-07阅读 0热度 0
ai

5月7日,OpenAI联合AMD、博通、英特尔、微软及英伟达,通过开放计算项目(OCP)正式开源了“多路径可靠连接”(MRC)协议。这项举措直接针对大规模AI训练中网络脆弱性与成本高昂的核心挑战,旨在重塑AI基础设施的底层网络标准。

MRC协议基于RoCE标准构建,并集成了SRv6技术。它要解决的是一个在万级GPU集群中极具破坏性的问题:即便是微秒级的网络延迟或瞬时链路故障,也足以中断整个分布式训练任务,导致价值数十亿美元的计算资源陷入停滞。传统数据中心可容忍的轻微拥塞或设备闪断,在AI训练规模下会被指数级放大,成为影响可用性与总拥有成本(TCO)的关键瓶颈。

MRC的解决方案从三个核心维度展开:网络拓扑重构、流量工程优化与控制平面简化。

架构革新:从“多层立交”到“扁平网格”

传统大规模网络依赖多层交换架构,如同复杂的立体交通枢纽,路径冗长、节点密集、功耗居高不下,且单点故障影响范围大。MRC采用多平面网络设计,核心思路是拓扑扁平化与资源虚拟化。

具体实现上,MRC可将单个800Gb/s物理接口虚拟分割为多条逻辑链路,仅需两层交换机即可连接超过13万块GPU。这种设计显著降低了网络延迟与整体功耗,减少了所需交换机的数量。更重要的是,它创造了前所未有的路径冗余,为智能流量调度奠定了物理基础。

流量调度:“数据包喷淋”应对拥塞

在扁平多路径拓扑之上,MRC引入了“自适应数据包喷淋”技术。该技术将单次传输的数据包动态分散到数百条可用路径上并行发送,而非依赖单一固定链路。

这种多路径并发传输机制彻底避免了传统网络中因流量集中导致的热点拥塞。接收端GPU可依据数据包内嵌的内存地址标识,无缝完成数据重组,保障了传输的完整性与顺序一致性。

控制简化:告别复杂,拥抱确定

控制平面的复杂性是网络不稳定的主要根源之一。MRC摒弃了传统动态路由协议(如BGP),全面采用SRv6源路由。

这意味着数据包的完整转发路径由发送端预先编程确定。网络交换机仅需执行静态转发动作,无需进行动态路由计算与协议收敛。这种确定性网络消除了因路由振荡或收敛延迟引发的故障,将故障恢复时间从秒级压缩至微秒级。

在实际部署中,MRC已在NVIDIA GB200超级计算机与Oracle Cloud Infrastructure (OCI) 站点中得到验证。在模拟链路抖动、交换机故障等真实场景的AI训练负载测试中,MRC能够实现亚毫秒级故障切换,确保训练任务零中断,显著提升了集群的可靠性与资源利用率。

OpenAI与产业联盟推动的MRC协议,不仅是一项技术规范,更是对下一代AI算力集群网络架构的重新定义。其核心价值在于提升系统在极端规模下的韧性(Resilience)与确定性(Determinism)。当AI模型向万亿参数演进时,此类底层基础设施的革新,其战略意义不亚于算法层面的突破。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策