OFC 2026对比:分布式AI训练互联延迟边界多远算太远?
2026年3月15日,OFC 2026在洛杉矶办了一场很值得关注的Workshop,主题直击当前AI基础设施的核心矛盾——《How Far is Too Far? Interconnect Latency and Distributed AI Training》。大模型规模指数级膨胀,分布式同步训练对光互联技术的要求,到底能卷到什么程度?这场Workshop从AI算力缩放的底层定律和物理极限说起,一路聊到超大规模AI超算的架构实现,再深入到光传输的技术约束、产业部署的落地实践,最后对距离极限做了量化验证。Google、Ciena、Meta、Eribel Systems、微软的技术专家,在现场拿出了非常系统的论证。
Google TPU超算的高速光互联架构与超大规模集群扩展实践
Google的Anny Xijia Zheng分享了基于TPU超算迭代实践的底层思考,核心是系统级协同设计如何突破超大规模分布式AI集群的互联瓶颈。几个关键点值得仔细拆解。
算力指数增长与互联性能墙
模型复杂度的提升,推着算力需求像坐了火箭一样指数级飙升——2018年ELMo的93.6M参数,到2025年已经超过1.5T参数,这个量级跨越本身就说明问题。与之匹配的TPU单芯片算力,从v4的275TFLOPS一路拉到Ironwood的4614TFLOPS,HBM带宽也从1.2TBps涨到了7.4TBps。
但真正要命的是那个“互联缺口”。AI/ML基础设施早就不是简单的服务器集合了,它已经演变成了大规模的分布式共享内存系统。系统性能基本上是被互联吞吐量卡死的,这就构成了一个非常显著的“性能墙”。高性能AI训练要想跑得顺,必须依赖高带宽、低延迟、无损的互联fabric,才能把scale-up和scale-out的内存共享做到位。
TPU的核心架构解决方案:专用化与片间互联(ICI)
TPU破局的路子很明确:专用化设计加片间互联架构。核心是采用3D Torus拓扑的专用ICI,配合光电路交换(OCS)技术,既实现故障容错,也搞定了高效调度。最新的Ironwood TPU超Pod,scale-up能力有了质的突破——单Pod最大可以支持9216颗TPU芯片,FP8精度下峰值算力冲到42.5 ExaFLOP,同时构建了1.77PB可直接寻址的共享HBM内存池。这意味着9216颗芯片可以在一个统一的共享内存域里做同步高效训练。
Ironwood的模块化扩展与高可用设计
Ironwood用了全3D Torus拓扑,每个切片都集成了环绕链路,目标就是把互联性能推到极致。基于4x4x4的模块化设计,可以从64节点的基础“Cube”积木块开始,灵活拼成8x8x4、16x8x16等各种规模的作业切片。单Superpod包含144个4x4x4积木块,弹性扩展这件事算是做得比较彻底的。
高可用这块,通过OCS技术实现了粒度化的故障隔离,可以把故障限制在局部“迷你Cube”内,避免全局切片跟着停摆。配合自动重调度机制,可以即时识别故障并替换健康Cube,故障恢复时间从分钟级直接压到了秒级。
超越单Pod规模的跨域扩展:Multislice Training
针对超大规模训练的需求,Google拿出了Multislice Training技术。通过400G云互联和Jupiter数据中心网络(DCN),实现跨Pod的TPU切片互联,支持超出单Pod规模的近线性性能扩展。这个方案撑住了AI工作负载对超低延迟互联的硬性要求。
分布式AI训练的缩放定律与物理极限
Dr. Pedro Freire的演讲从缩放定律的底层逻辑出发,直接划定了分布式AI训练的终极物理边界,以及不同场景下该怎么部署的决策框架。
缩放定律的底层链路:从算力爆炸到分布式架构
AI模型的缩放定律,形成了一条“算力爆炸→能源极限→网络极限→分布式策略”的链条。前沿AI模型的训练算力需求增长曲线确实夸张——2020年GPT-3的训练算力是3.1×10^23 FLOPs,2025年Grok-3已经到了4×10^26 FLOPs,下一代前沿模型预计要突破10^27-10^28 FLOPs。单数据中心根本扛不住对应的算力和能源需求,必须走向地理分布式架构。
从算力需求与基础设施的匹配关系来看:10^26 FLOPs的算力需求,需要约2.4万颗GPU,单栋数据中心还能承载;10^27 FLOPs就要约24万颗GPU,必须多建筑园区联合承载;而突破10^28 FLOPs的下一代前沿模型,需要约240万颗GPU,跨区域分布式部署架构几乎是唯一选择。
不同并行策略的延迟敏感性与可行性边界
不同分布式训练并行策略,对互联延迟的敏感性差异很大,直接决定了跨域部署能走多远。张量并行通信需求极高,跨数据中心部署基本不可行;数据并行每步训练都要交换权重和梯度,对延迟高度敏感,只适合同区域部署;流水线并行只需要交换激活值,通信量大幅降低,对延迟的容忍度更高。而以DiLoCo为代表的异步训练算法,跨广域网的通信量比同步数据并行低了500倍,是跨长距场景的核心可行方案。
分布式推理的延迟约束
Transformer模型的推理是逐token生成的,每一次网络跳数都会直接增加单token延迟,所以推理场景对延迟更敏感,而且越来越偏向内存受限。即使通过Prefill与Decode阶段分离、KV缓存分片这些优化手段,广域网延迟仍然会显著放大开销。跨国家、跨洲际的实时推理,在当前技术体系下不具备可行性,只能做地理容灾部署。
部署场景的核心洞察与分级适配
基于延迟、带宽与场景需求,分布式AI训练与推理形成了清晰的分级适配规则:
单节点场景延迟低于1μs,带宽可达900-1800 GB/s,可以支撑张量并行+数据并行训练,适配200B参数以内的模型,也能实现500B参数以内模型的实时推理;同机架NVL72互联场景延迟低于1μs,总带宽可达130 TB/s,张量并行+流水线并行+数据并行全模式训练都能撑住,适配1T参数的大模型,万亿参数模型的实时推理也能实现;跨机架Infiniband互联场景延迟在1-10μs,带宽可达400-800 Gbps,全3D并行训练没问题,也适配Prefill与Decode分离的推理部署;同区域跨DC场景延迟在0.1-10ms,带宽可达100-800 Gbps,可以适配DiLoCo算法、大微批量流水线并行训练,Prefill与Decode分离的推理部署也能探索一下;跨国家场景延迟在20-80ms,带宽可达100-400 Gbps,只适合500步同步一次的DiLoCo训练,实时推理不行,只能做地理容灾;跨洲际场景延迟在80-200 ms,带宽可达100-400 Gbps,只能适配联邦学习架构的训练,实时推理同样不可行,仅用于地理容灾。
这次演讲最后给出的核心洞察很直白:对于AI训练,同步频率必须随传输距离呈指数级下降——NVLink互联可以实现每步同步,IB互联每1-4个微批量同步,跨DC互联每100-500步同步,跨洲际互联需要降到每500-1000步同步。
Ciena:分布式同步AI训练的光传输零丢包余量与延迟极限
James Harley的演讲核心围绕分布式同步AI训练对光传输需求的重构,明确了光余量、零丢包与传输距离之间的强绑定关系。
核心矛盾:传统光传输标准与AI训练零丢包需求的不匹配
传统光传输的“零余量(Zero Margin)”定义为FEC后BER 1e-15,但按这个标准,1.6T波长链路平均每天会产生140个丢包。对于分布式同步AI训练,丢包引发的梯度重传会把差分光路径延迟放大3倍。所以必须通过额外光余量,把FEC后BER降到远低于1e-15,实现近零丢包传输。
差分延迟:分布式同步AI训练的核心距离约束
差分光路径延迟是分布式同步AI训练的主导延迟机制。标准光纤中100km传输对应0.5ms单向延迟。同步AI训练的ALL-Reduce算法,每一轮迭代必须等所有光路径的梯度数据传完,集群可部署的区域上限,完全由算法对差分延迟的容忍度决定。有意思的是,如果把差分延迟降低1/3,集群可覆盖的区域面积可以扩大9倍。
零丢包实现方案:Margin on Margin架构
针对AI训练的零丢包需求,必须采用增强型强FEC,为光链路预留“余量上的余量”。以DCI 1600ZR链路为例,1dB额外余量可以支撑120km零丢包传输,2dB额外余量可以支撑160km零丢包传输,而强FEC的额外功耗代价只有2W。
光余量设计的关键约束
对简化型开环FEC(OFEC)的实时FPGA评估显示,不同解码参数性能差异明显——其中“1S4H”(1次SD+4次HD迭代)表现稳定,“2S3H”存在严重误码。同时,100km及以内的短距链路中,80%以上的噪声来自调制解调器,光余量设计必须覆盖调制解调器的误码平底、相关误码,以及PMD、PDL这些非线性效应的统计长尾。
核心量化结论与开放问题
如果假设分布式同步AI算法可以容忍1ms差分延迟,在零丢包场景下,集群最大传输距离为200km,对应覆盖面积约12.5万平方公里;但一旦丢包重传出现,最大传输距离直接缩到66km,覆盖面积仅剩1.4万平方公里。演讲同时指出,当前OIF标准中还没有针对AI训练零丢包需求制定光余量设计的相关规范。未来3年分布式同步AI训练需要什么样的传输距离、可容忍的差分延迟上限是多少,仍然是行业需要明确的核心问题。
Meta:区域级AI DC互联的产业部署实践与边界
Meta的Mark McKillop从真实部署实践出发,明确了区域级AI数据中心互联的落地边界和工程化要求。
AI DC互联的需求分类与距离分级
Meta把AI集群网络需求分为区域AI DC互联和常规骨干网DC互联两类,这次重点聚焦区域AI DC互联。初步划定的距离分级是<3km、<10km、~600km、~1200km。但产业实践最终将区域AI DC互联的最大距离上限设定在了~150km。超过150km的站点,交付周期明显拉长,资源收益被完全抵消;而<150km的部署范围,可以避开高密度ILA站点,充分利用现有地产与GPU算力资源,不需要处理ILA带来的部署复杂度。
硬件部署的工程化实践
现有ILA基于电信机架建设,功率与空间footprint受限,每机架只能支持4-8个转发端口(FPs),对应约4.5kW功率、300mm深度。Meta正在推进下一代NG-ILA部署,采用600mm深机架,实现更高的每机架功率密度,同时与设备厂商合作研发更密集的硬件,按432-FP为单位进行增量建设。
网络架构的核心设计原则
数百套并行系统的核心挑战,是维持多路径的延迟对称性,避免路径间的延迟波动影响集群同步。架构设计上,优先选择等延迟的最大带宽路径,而不是降低容量去适配多路径。
对于光交换(OCS)的应用,Meta指出其端口、插片、机框的成本会随规模呈N倍增长,部署时需要结合AI业务的不同服务等级(CoS)做专属的容量规划与可用性设计。常规骨干网用IP层保护切换,但在ZR技术场景下性能开销会显著增加,而保护切换的底层逻辑本身很简洁,需要结合OCS与AI业务特性做网络保护的优化适配。
新技术观点与生产环境测试
关于空心光纤技术,演讲指出其核心价值需要产业化落地后才能释放。无ILA长距传输能力可以减少光放大站点、跳过现有ILA,短期和长期都有应用价值。但单纯20%的延迟降低,没法改变80km与100km场景的核心架构约束,只能在RoCE场景下实现数公里的距离拓展。
生产环境中,Meta已经完成了分布式集群的延迟测试。单集群规模144颗GPU,单链路采用48个400G ZR模块,总带宽达到19.2T,链路buffer可配置范围0-500k,测试距离覆盖2km、10km、50km、200km、250km、500km,完成了RoCE/TCP的参数与buffer调优。
Eribel Systems:地理分布式AI训练的距离极限量化与架构优化
Katharine Schmidtke博士的演讲通过仿真量化与产业数据结合,明确了地理分布式AI训练的距离边界,以及延迟缓解的技术路径。
地理分布式AI集群的核心驱动力
大模型规模持续增长,需要更多GPU协同完成同步训练,单数据中心的算力上限已经撑不住了。xAI的Colossus集群单站点GPU规模已经达到10万颗,单数据中心的功率规模已达100-500MW。土地和电力的刚性约束,迫使AI算力集群从单DC向跨建筑、跨园区、跨区域的地理分布式架构演进,部署距离从园区内<3km、同城<10km,逐步拓展到10-100km的城域范围。
AI集群的分层网络架构
大规模AI集群已经形成三级网络架构,不同层级的延迟与带宽能力差异明显。第一级是Scale-Up(节点内/机架内),采用NVLink/NVSwitch类fabric,延迟低于1μs,负责超短距高速互联;第二级是Scale-Out(单数据中心内),采用以太网/InfinBand架构,搭配400G/800G光链路,Clos/Leaf-spine组网,负责集群内节点互联;第三级是Scale-Across(数据中心间),采用长距光传输、相干光ZR/ZR+技术,延迟在0.5-5ms区间,具体依距离而定,负责跨DC集群互联。
产业现状与核心仿真结论
当前绝大多数AI训练集群仍然尽量部署在单一数据中心内,核心原因是光纤传输、网络协议、交换机带来的延迟挑战,会严重影响训练效率。跨DC互联网络需要10-100Tbps的超大带宽,单链路速率需达到400G-1.6T,基于相干DWDM、400ZR/800ZR模块与电信级光纤基础设施建设。
基于32k GPU规模的Llama 70B模型数据并行训练场景,采用RoCE环算法的仿真结果显示,128MB消息尺寸下,超过100km的互联距离,模型归一化吞吐量已经出现显著下降。对于小模型训练,在园区级(10km)之外,就已经进入延迟主导、而非带宽受限的低效区间。
延迟的物理底层与缓解方案
光传输延迟存在无法突破的物理极限。标准单模光纤的单向传输时延约5μs/km,空心光纤可以将这个数值降到3.5μs/km,在相同传输时间下,空心光纤可以拓展30%的传输距离,但仍然无法突破光速的底层约束。具体数据:1km传输,标准光纤时延5μs,空心光纤3.5μs;100km传输,标准光纤时延500μs,空心光纤350μs;1000km传输,标准光纤时延5000μs,空心光纤3500μs。
同时,主流AI专用以太网交换机的单跳延迟已经进入百纳秒级——Broadcom TH-6 Ultra单跳延迟约250ns,NVIDIA Spectrum-4单跳延迟约300ns,两者都支持51.2 Tbps的交换容量,典型radix为128×400G,可以支撑10万+规模的翻跟斗与GPU集群组网。多跳组网带来的延迟叠加,会进一步压缩跨DC集群的可用传输距离。
针对延迟约束,可以采用拓扑感知模型并行、区域子集群拆分、流水线并行、部分异步更新、梯度压缩、分层聚合等架构与算法优化方案。但所有方案都伴随着确定性降低、系统复杂度提升、算法精度损失等代价。
核心结论
物理定律决定了同步AI训练集群的核心边界在城域尺度;超过100km的DCI互联,只对大消息尺寸、高互联带宽的大模型训练具备可行性;能源供给对AI集群地理分布的影响,将远超光传输技术本身。
Workshop核心共识总结
这次Workshop所有演讲嘉宾形成的产业共识和核心结论,梳理下来有这么几条:
光速的物理定律,决定了分布式同步AI训练集群的天然边界为城域尺度(~100km),光学技术只能优化延迟,无法突破底层物理约束;
零丢包是分布式同步AI训练跨域部署的核心前提。丢包引发的重传会大幅压缩集群的可部署距离,传统光传输的零余量标准已经满足不了AI需求,面向AI的光余量设计规范必须重新构建;
产业实践中,区域级AI DC互联的当前部署上限为150km,超过这个距离的资源收益,会被部署复杂度和训练效率损失完全抵消;
超过100km的长距DCI互联,只对大消息尺寸、高互联带宽的大模型训练具备可行性,小模型训练在园区级之外就已经进入延迟主导的低效区间;
跨国家、跨洲际的同步分布式训练,在当前技术体系下没有落地可行性,只能通过低频次异步训练、联邦学习等架构实现;
土地、电力与可再生能源的分布,对AI集群地理分布的影响,将远超光传输技术本身,这是未来分布式AI集群部署的核心决定因素。
















































