OFC 2026光互联技术排行榜:AI数据中心Scale-Up方案

2026-06-18阅读 0热度 0
Meta

2026年3月16日,OFC 2026的Optica Executive Forum上,一场关于“Scale Up Data Center Networks”的主题论坛,集中释放了AI时代数据中心Scale-Up互联领域最前沿的技术信号。Meta首席工程师Drew Alduino、Marvell数据中心网络业务集团执行副总裁兼总经理Da ve Lazovsky、Ciena系统架构副总裁Peter Winzer、Arista联合创始人兼首席架构师Andy Bechtolsheim四位关键人物,分别披露了各自的实测数据、技术路径与产业路线图。下面直接进入干货部分。

一、Meta:AI基建超大规模扩张,CPO可靠性实测与OCI-MSA生态布局

Meta首先亮出了自家AI基础设施的规模——服务全球34亿日活用户,单日WhatsApp消息量超过2000亿条;2025年已部署超过130万张GPU,后续还有数百万张在路上。资本开支方面,2024年超过350亿美元,2025年超过700亿美元,2026年预计超过1150亿美元。路易斯安那州的Hyperion数据中心总功率超过了5GW,占地面积大致相当于曼哈顿核心区很大一块地方。俄亥俄州、得克萨斯州、印第安纳州也都规划了1GW级以上的AI数据中心。为了支撑这个体量的扩张,Meta已与英伟达和AMD合作推进内部MTIA芯片研发,同时与康宁联手保障光通信产能。

AI算力爆发式增长给网络带来的成本与功耗压力显而易见。LPO和CPO/集成光学被认为是破局的关键方向,但行业核心问题已经从“能不能实现”转向了“该不该大规模部署”。可靠性、可用性、可维护性(RAS)是当前最大的未解难题。

目前Meta的GB300机架采用高速电气背板作为Scale-Up域互联方案,单宽机架支持最多72颗翻跟斗,双宽ORW机架支持最多144颗,功耗超过900kW,采用48V DC或±400V DC供电,支持风冷和液冷。但下一代AI集群需要单Scale-Up域支持256颗以上翻跟斗,铜缆互联在传输距离、功耗、密度上已经逼近物理极限。

Meta公布了其51.2T CPO Bailly系统的大规模可靠性测试最新数据,累计已收集超过5000万小时的400G等效设备运行数据:

  • 作为基准的2×400G FR4可插拔光模块,在40℃下运行约800万设备小时,MTBF为0.71M小时;
  • CPO Phase1系统在40℃下运行超过4000万设备小时,整体MTBF为1.47M小时,较可插拔模块提升约2倍;
  • 剔除激光驱动电路SMT组件导致的ELSFP问题后,CPO Phase1系统MTBF达到8.2M小时,较可插拔模块提升超过10倍;
  • 非可维护性故障对应的MTBF超过20M小时。

Meta认为,CPO端口可靠性优于可插拔模块的原因包括:接口数量减少、集成度更高、系统级协同设计优化了激光器等关键组件的运行条件、产线级系统测试与筛选降低了出厂缺陷率、部署后人工干预减少。目前CPO Phase2系统已运行超过5000万小时,因故障数量过少,暂时还无法给出具有统计置信度的MTBF值;现场可更换的ELSFP模块有效提升了部署后的可用性,缩小了故障影响范围。

为了解决光Scale-Up的生态碎片化问题,Meta联合产业界于2026年3月成立了OCI-MSA,拥有8家创始成员,目标是围绕光Scale-Up架构达成行业共识,基于开放标准构建未来AI基础设施,将Scale-Up互联从机架内扩展至多机架、多排场景。

OFC 2026 | Meta:博通51.2T CPO超9000万器件小时验证进展与故障模式解析

二、Marvell:Photonic Fabric重构Scale-Up互联,低功耗与全链路兼容并行

Marvell指出,万亿参数大模型训练、推理型AI、多模态模型、混合专家模型(MoE)的快速发展,对计算、内存容量、内存带宽、网络带宽和时延提出了全方位要求,其中Scale-Up网络的重要性远超以往。数据显示,加速计算中数据传输的功耗占比已超过总功耗的50%,到2030年美国数据中心总能耗将达到600TWh。能源效率,已经成为AI基础设施可持续发展的核心约束。

Marvell将AI数据中心网络分为Scale-Up和Scale-Out两个域:Scale-Up域承载约85%的集合通信流量,要求XPU到XPU的时延低于200ns、能效达到2.5pJ/bit、单封装带宽达到百Tbps级、传输距离约50米;Scale-Out域承载约15%的流量,主要负责跨集群长距互联。

针对Scale-Up域的需求,Marvell推出了Photonic Fabric™技术体系,核心包括PFLink™和PFSwitch™:

  • 采用模拟SerDes设计,去除DSP,实现极致低功耗;
  • 使用热稳定的电吸收调制器(EAM),实现硅光与ASIC的深度集成,无引脚面积限制;
  • 兼容TSMC CoWoS-S/R/L先进封装工艺,依托成熟的高量产供应链;
  • 采用低插入损耗光栅耦合器和可拆卸FAU,实现便捷的光纤连接。

Marvell提出了分层的技术演进路线:铜缆互联适用于机架内极短距场景,成本最低、可靠性最高;NPO/CPO适用于近封装/共封装场景,平衡功耗与密度;Photonic Fabric是终极方案,实现芯片级光电集成,支撑超大规模Scale-Up集群。同时,Marvell强调技术方案必须支持多代兼容、带宽平滑扩展和多厂商互操作,通过协议和物理层的兼容性,实现从铜缆到CPO的无缝迁移,降低客户的部署风险。

三、Ciena:混合介质是最优解,Open CPX MSA统一封装互联接口

Ciena开篇点明一个核心事实:高速SerDes是数据中心的“硬通货”。过去25年,交换机容量以每年40%的速度增长,单通道SerDes速率以每年20%的速度增长,当前已达到200G/lane,到2030年将演进至400G/lane。高速SerDes是芯片封装逃逸的唯一途径。铜缆在400G时代仍将发挥重要作用,没有单一技术能解决所有场景的互联问题。混合介质(铜+光)是构建低功耗AI集群的最优解。

AI集群Scale-Up域的规模受交换机Radix的限制:无源铜缆在200G速率下的传输距离约1米,主动铜缆可扩展至4-5米,足以支撑1024 GPU的单Scale-Up集群;跨Tier-1集群的互联必须采用光技术。因此Tier-1用铜、Tier-2用光的混合介质架构,能在保证性能的同时大幅降低功耗。Ciena特别强调,必须全力规避重定时器DSP——大型集群中重定时器的功耗,会带来数十亿美元的额外运营成本。

对比前面板可插拔架构,共封装I/O具有显著的密度和功耗优势:缩短了PCB走线长度,减少了信号损耗和重定时器的使用;突破了前面板的密度限制,可在单机架内部署更多ASIC;液冷技术的普及进一步放大了这一优势。

为了解决共封装I/O的标准化问题,Ciena联合Coherent、Marvell、Molex、Samtec、TerraHop发起了Open CPX MSA,定义了通用的可扩展封装互联接口:

  • 采用6.4T可插拔连接器,支持共封装和近封装两种部署方式;
  • 无需压缩硬件,安装维护便捷;
  • 可扩展至1024×400G/lane,满足未来带宽需求;
  • 兼容NPO/NPC/CPO/CPC等所有主流共封装技术,为构建标准化的CPO供应链奠定基础。

Ciena在OFC 2026现场展示了Vesta 200 6.4T CPX模块,验证了混合介质封装I/O的工程可行性。

四、Arista:XPO突破密度瓶颈,2028年光模块需求将突破10亿

Arista给出了AI光互联的需求预测:到2028年,单XPU的Scale-Up带宽将达到102.4Tbps,Scale-Out带宽将达到3.2Tbps;一个百万级XPU的AI数据中心,将需要1.28亿颗Scale-Up光模块和800万颗Scale-Out光模块;全行业对1600G等效光模块的年需求将突破10亿颗——其中Scale-Up域的需求是Scale-Out域的10倍。

当前全球光模块产业的年产能仅为1亿多颗1600G等效单元,激光、光隔离器、磷化铟等核心器件的产能严重不足,需要在24个月内提升10倍才能满足需求。目前Scale-Up域仍以铜缆为主,但铜缆的扩产也面临巨大挑战。向光互联的迁移是必然趋势——不过得承认,铜缆和RF微波是最易规模化、最低功耗、最可靠的短距互联技术。

Arista指出,OSFP可插拔模块已经触及热密度天花板:1U机架最多只能部署32个OSFP模块,51.2T交换机需要1U机架,204.8T交换机则需要4U机架,结果交换机机架数量超过了GPU机架数量,数据中心空间利用率极低。

以一个400MW、部署12.8万颗XPU的AI数据中心为例,采用OSFP模块需要1400个交换机机架,而采用XPO模块仅需要350个交换机机架。

为了解决这个问题,Arista推出了XPO超高密可插拔光模块,核心优势如下:

  • 单模块容量12.8T,采用集成液冷设计,1U机架可部署16个XPO模块,单机架带宽达到6.4Pbps;

  • 交换机机架数量减少75%,数据中心占地面积减少44%,大幅降低机架、母线、冷却管路等基础设施成本;
  • 可靠性大幅提升:激光器数量减少75%,液冷使模块工作温度降低20-25℃,无风扇振动,微控制器和VRM等通用组件数量减少75%,单激光器在45℃下的FIT值低于1,12.8T模块的总FIT值低于20;

  • 首批实测数据显示,XPO-LPO的Pre-FEC BER达到10^-8,XPO-FRO达到10^-10,性能满足要求。

目前XPO MSA已吸纳60家成员,其中包括20家全球领先的光模块厂商,生态快速成熟。Arista强调,可插拔架构的核心价值在于将光模块的研发周期与GPU、交换芯片的研发周期解耦,能够快速迭代和验证新技术,是光互联创新的重要载体。

五、圆桌共识:2028年CPO占比约30%,成本与可靠性是核心门槛

论坛最后的圆桌讨论环节,四位嘉宾就行业关注的核心问题达成了以下共识:

  1. 技术优先级:可靠性和成本是新技术的准入门槛,不达标则无法大规模部署;功耗和传输距离是优化项,未来随着能源供应紧张,功耗将成为核心约束条件。
  2. 铜缆的长期价值:短距Scale-Up场景仍将以铜缆为主,其成本、可靠性和量产性无可替代,混合介质架构将是未来很长一段时间的主流。
  3. CPO量产节奏:从MSA标准发布到实现高量产(HVM)大约需要2年时间,400G/lane SerDes将是CPO规模量产的切入点,2028年CPO在Scale-Up和Scale-Out域的总占比约为30%。

  1. 标准间的关系:XPO、CPO、OCI-MSA、Open CPX并非互斥关系,而是分别适配不同的场景和技术演进阶段,生态协同大于竞争。

这次Optica Executive Forum实际上给出了一张AI时代数据中心Scale-Up光互联的技术路线图:未来1-2年,XPO、LPO、有源铜缆将成为主流方案,快速满足AI集群的密度和功耗需求;未来3-5年,CPO将实现规模化上量,OCI-MSA和Open CPX将推动接口标准化和多厂商互通;长期来看,全集成光互联技术将成为超大AI集群的标配,彻底突破铜缆的物理限制。

2026-2028年将是光互联技术定型、生态统一、产能爆发的关键三年,直接决定AI算力的扩张速度和成本。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策