OpenAI新协议破解AI训练拥塞:科技巨头联合技术测评

2026-05-13阅读 0热度 0
OpenAI

最近,科技圈有个大动作,你可能已经听说了。由OpenAI牵头,拉上了AMD、博通、英特尔、微软和英伟达这些响当当的名字,组成了一个“全明星”联盟。他们共同发布了一项新的网络协议,目标直指一个困扰行业已久、并且随着AI算力需求爆炸而愈发棘手的老大难问题——网络拥塞。

OpenAI 联合科技巨头推出新网络协议,破解 AI 训练拥塞难题

这个新协议有个挺直白的名字,叫“多路径可靠连接”(Multipath Reliable Connection,简称MRC)。它是为谁设计的呢?答案是那些动辄拥有超过10万块GPU的超级AI训练集群。它的核心思路其实很巧妙:与其像传统网络那样,把所有数据流量都挤在少数几条主干道上,导致动不动就“堵车”,不如把数据包同时分发到成百上千条可用的网络路径上去。这样一来,哪条路堵了或者坏了,数据流立刻就能绕道走,保证整体交通始终顺畅。

OpenAI在官方博客里把这个问题讲得很透。他们指出,网络拥塞、链路故障、设备故障,这些都是造成数据传输延迟和抖动的罪魁祸首。而且,集群规模越大,这类问题出现的频率就越高,处理起来也越麻烦。

更关键的是,在大规模AI训练这种精密作业里,哪怕只是一次短暂的网络故障,后果都可能非常严重。它可能导致整个训练任务直接崩溃,迫使系统从上一个保存的检查点重新开始,或者在网络重新计算路由的几秒钟里完全停滞。这种中断,浪费的不仅是宝贵的GPU算力,更是研发人员的时间与耐心。用OpenAI自己的话说:“我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种‘故障放大器’,因此防止此类问题的发生已变得至关重要。”

MRC协议由OpenAI主导开发,其他几家巨头也贡献了各自的核心技术。整个项目由开放计算平台(OCP)联盟负责托管和协调,看得出是奔着成为行业标准去的。其中,英伟达将其Spectrum-X以太网技术整合进了MRC。目前,MRC已经在全球一些最大规模的AI训练集群中投入实际使用了,包括OpenAI自家用来训练ChatGPT和Codex等前沿大模型的集群。

此外,微软的Fairwater数据中心,以及甲骨文云基础设施(OCI)那个隶属于“星际之门”项目的Abilene数据中心,这些专为训练和部署超大模型打造的“AI工厂”,也都应用了基于Spectrum-X的MRC技术。

那么,MRC具体是怎么工作的呢?它的智能之处在于,能够在所有可用的网络路径上进行动态的负载均衡,并且实时感知并避开那些已经过载或出现问题的路径,从而始终保证GPU能以最高的效率工作。相比之下,传统网络架构在发生故障后,往往需要几秒甚至几十秒才能缓慢恢复稳定,这在分秒必争的AI训练中是不可接受的。

这种能力,确保了即便在网络出现减速、拥塞或其他意外干扰时,训练任务也能平稳进行,GPU利用率始终保持在高位。对于运维人员来说,另一个好处是管理变得简单了——他们可以通过一个统一的单一管理界面,就能对全网流量的路径进行精细化的监控和策略控制。

在架构设计上,MRC也做了精简。它的多平面网络设计,只需要两层以太网交换机,就能连接超过10万块GPU。而如果使用标准的800 Gb/s网络方案,通常需要三到四层交换机才能实现同样的规模。层数减少,意味着潜在的故障点更少,网络延迟也可能更低。

目前,MRC的规范已经通过开放计算项目(OCP)正式发布,同时附有一篇详细的学术研究论文,向整个行业开放。

Q&A

Q1:MRC协议是什么?它主要解决什么问题?

MRC(多路径可靠连接)是由OpenAI联合多家科技巨头共同开发的新型网络协议。它瞄准的是超大规模AI训练集群中的网络性能瓶颈问题,特别是拥塞和故障。通过将数据流量智能地分散到数百条并行路径上,它有效避免了传统网络中少数关键链路过载导致的延迟、抖动乃至训练中断,从而确保价值连城的GPU算力能够被持续、高效地利用。

Q2:MRC协议和传统网络方案相比有哪些优势?

对比传统方案,MRC的优势可以归纳为三点:首先是韧性更强、恢复更快。传统网络故障后恢复时间以秒甚至十秒计,而MRC能实现近乎实时的路径切换。其次是架构更简洁,连接超大规模GPU集群仅需两层网络设备,简化了部署和运维。最后是管理更集中,运维人员可以通过单一界面实现全局流量路径的精细管控,提升了运维效率。

Q3:MRC协议目前在哪些地方已经投入使用?

MRC协议并非纸上谈兵,它已经在全球最前沿的AI算力基础设施中落地。目前已知的应用包括OpenAI用于训练其旗舰大模型的内部集群,以及微软的Fairwater数据中心和甲骨文云基础设施的Abilene数据中心(后者是“星际之门”项目的一部分)。这些部署都采用了英伟达的Spectrum-X以太网技术作为硬件基础。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策