ECTC: Nvidia/Lumentum共封装光互连DWDM激光器阵列深度解析

2026-06-18阅读 0热度 0

其他

在2026年第76届IEEE电子元件与技术会议（ECTC）上，英伟达与Lumentum联合发布了面向共集成光学（CIO）架构的8通道DWDM CW-DFB-SOA激光器阵列及ELSFP封装原型。该研究系统量化了激光核心参数对200Gb/s/光纤链路能效的影响，明确指出激光模块效率与通道功率均匀性是决定链路总能耗的核心因素。通过创新的器件设计与封装工艺，团队实现了业界领先的光谱一致性与模块效率，为英伟达Vera Rubin等下一代AI平台突破铜互连物理瓶颈提供了关键光源支撑。

一、研发背景：AI算力需求激增，光互连技术迎来关键转折点

AI产业正沿两条主线高速演进：大规模训练与高吞吐量实时推理。训练算力以每年约4.3倍的速度增长，旨在实现涌现推理能力；而商业化落地带来的“生成瓶颈”，则要求GPU在提升性能的同时大幅降低总拥有成本（TCO）。英伟达GPU平台的进化轨迹印证了这一趋势：Blackwell GB300平台相较Hopper H200，单位功耗token吞吐量提升约50倍，单token成本下降35倍。即将于2026年推出的Vera Rubin平台，更将NVLink带宽推高至3600GB/s。

性能提升离不开互连技术的同步演进。从Pascal到Blackwell，NVLink的单GPU链路数从4条增至18条，单链路带宽从160GB/s提升至1800GB/s，端到端延迟从5-10μs压缩至1-3μs。但铜基电互连已逼近物理极限——通道损耗、功耗、重定时器开销与周长带宽密度约束，让单纯依靠电互连难以延续TCO下降趋势。共集成光学（CIO）架构由此成为必然选择：将硅光（SiPh）光电chiplet与计算裸片集成在同一中介层上，大幅提升带宽密度、延长传输距离、降低链路功耗与延迟。

CIO架构落地面临的核心挑战在于：中介层边缘长度有限，光纤出口与布线空间紧张。基于微环谐振器（MRR）调制器的密集波分复用（DWDM）技术，通过提升单光纤频谱效率与单位周长带宽密度，成为解决这一问题的关键。同时，时钟转发光链路架构与NRZ信号的结合，进一步降低了链路延迟与功耗：时钟与数据同传可跟踪宽带抖动，简化时钟生成电路；NRZ无需复杂的多电平编解码，原始误码率低，可采用轻量级前向纠错（FEC）甚至无FEC设计，省去了高延迟的处理缓存。实现这一整套架构的核心前提，是一款高效、鲁棒的DWDM激光源。

二、单片集成设计：8通道CW-DFB-SOA阵列

本次研发的DWDM激光源为符合CW-WDM MSA标准的8通道连续波DFB阵列，采用200GHz通道间距，单波长光纤输出功率达8dBm，专为高密度CIO场景设计。

2.1 DFB-SOA一体化架构

激光器阵列采用n型InP衬底，通过金属有机化学气相沉积（MOCVD）实现单片集成。每个通道均集成了DFB激光段与半导体光放大器（SOA）。SOA承担双重功能：一是将光信号放大至CIO所需的100mW级输出功率；二是通过锥形波导台面结构实现模斑转换，优化与硅光中介层的耦合效率。有源区采用InGaAsP基多量子阱（MQW）结构，经干法刻蚀形成台面后，埋入半绝缘InP（SI-InP）材料，确保器件稳定的电学与热学性能。

2.2 优化光谱均匀性与波长稳定性

通道间光功率均匀性与通道间距精度，是DWDM激光源的核心设计指标。为实现均匀的光增益分布，研究团队对MQW有源区采用了n型调制掺杂剖面设计，通过在导带内广泛分布电子，实现了O波段全范围的增益平坦化，从根源上最小化了通道间功率偏差。

在波长稳定性方面，该阵列摒弃了传统的AR/HR端面镀膜方案，采用前后双端面抗反射（AR/AR）镀膜设计。这一设计抑制了非预期的腔反馈与传统AR/HR结构中常见的波长牵引效应，使得激射波长完全由光栅周期决定，确保了在20℃至75℃的宽温度范围内，200GHz通道间距的稳定性。

三、ELSFP模块的组装与封装工艺

研究团队将上述DFB-SOA阵列集成到了外置激光小尺寸可插拔（ELSFP）模块中，形成了完整的商用化光源解决方案。

模块的核心组装流程如下：首先将CW-DFB阵列裸片通过导热胶贴装到子载体上芯片（CoS）载体，再将CoS放置于TEC表面，最后将整个组件密封在镀金气密盒内，实现环境隔离与长期可靠性。

光路径设计采用了准直-隔离-聚焦的架构：激光输出首先经激光二极管（LD）透镜阵列准直，准直光束依次通过光隔离器与光学窗口，最终由第二组透镜阵列重新聚焦到光纤阵列中。所有光学元件采用单步环氧树脂固化工艺，有效防止了胶粘剂侵入光路径导致的额外损耗。

针对DFB阵列与LD透镜阵列界面的主导耦合损耗，研究团队采用了专有的阵列级自动对准系统，通过全局优化算法最小化总耦合损耗。为避免热诱导翘曲影响对准精度，整个对准过程中所有激光器均处于工作状态，确保了封装后的实际性能与设计值一致。

四、全面性能表征：ELSFP模块实测数据

研究团队对多颗ELSFP模块进行了系统的性能测试，各项指标均达到或超过设计目标。

光谱测试显示，阵列产生8个间隔200GHz的波长通道，通道间距误差控制在±16GHz以内。这一高精度得益于AR/AR镀膜对腔反馈的抑制，使得波长仅由光栅周期决定，避免了传统结构的波长漂移问题。

光功率均匀性表现优异：包含片外8×8熔纤合波器波长相关插入损耗在内，所有通道的单波长光功率总波动小于±0.8dB；若直接在芯片出光面测量，功率波动进一步降低至小于±0.4dB，充分验证了n型调制掺杂MQW设计的增益均匀性。

相对强度噪声（RIN）测试表明，所有通道在大部分测量频率范围内的RIN均低于-130dBc/Hz，满足绝大多数短距光互连应用的需求。研究同时指出，对于32Gb/s/λ的高性能DWDM光I/O系统，进一步降低RIN将有助于提升链路裕量与接收机灵敏度。

模块电光转换效率测试在三颗不同模块上完成，结果显示良好的一致性，最高模块效率达7.2%。效率随波长的变化趋势与MQW有源区的增益谱一致，短波长处因材料增益降低，效率略有下降。需要说明的是，该效率值包含了激光二极管偏置电路功耗、PCB走线损耗与电寄生损耗，但未计入TEC的功耗。

边模抑制比（SMSR）测试显示，所有8个通道在全波长范围内的SMSR均大于40dB，确认了器件稳定的单纵模工作状态与适用于DWDM链路的高光谱纯度。

五、系统级仿真分析：激光参数对链路能效的影响

为量化激光参数对链路整体能效的影响，研究团队搭建了系统级仿真框架，对比了单波长200Gb/s/光纤与(8+1)波长DWDM（8个数据通道+1个时钟通道，单通道速率32Gb/s，总速率200Gb/s/光纤）两种架构。

仿真结果表明，激光模块墙插效率是影响链路总能耗的首要因素。该效率包含电光转换效率与耦合、合波等无源光损耗，未计入驱动电路与TEC功耗。当模块效率较低时，激光功耗占据链路总功耗的主导地位，此时提升激光效率的收益远大于优化收发电路；当模块效率达到约10%时，激光功耗与发射端、接收端及热调谐电路的总功耗相当，此后电路效率的提升将成为降低链路能耗的主要手段。

通道间光功率波动是第二大影响因素。在DWDM系统中，最弱通道必须满足链路预算要求，而其余通道的多余功率只会增加不必要的能耗。仿真显示，当模块效率约为15%时，将通道间功率波动控制在1.6dB以内，即可避免激光功耗成为链路总能耗的主导因素。

通道间距误差对链路能效的影响相对较小。统计仿真表明，将通道间距误差控制在标称值的5%以内（对应200GHz间距的±10GHz），相邻波长间的串扰可忽略不计；即使存在10%的间距误差，在硅光光子集成电路（PIC）内进行校正也仅会增加约0.016pJ/b的能耗，对整体链路能效的影响微乎其微。

此外，TEC功耗与CoS封装方式也会显著影响模块性能。TEC功耗随激光结温与散热器的温差ΔT增大而急剧上升，当ΔT超过约23℃时，模块总功耗将显著增加。因此，优化光引擎与计算ASIC的整体热环境，不仅能提升激光效率，甚至可能在先进冷却架构中完全取消TEC。在封装方式上，倒装焊（P面朝下）具有更低的热阻，结温更低，斜率效率与输出功率更高，但会引入因热膨胀系数（CTE）失配导致的机械应力，可能引起波长漂移与通道不均匀；引线键合封装虽然结温较高、效率略低，但机械兼容性更好，应力诱导的波长漂移更小，通道光谱稳定性更优。

六、结论：为下一代AI互连铺路

随着铜基电互连逼近物理极限，DWDM架构已成为延续AI平台性能-功耗优化轨迹的核心技术路线。高效、鲁棒的激光源，则是DWDM光互连落地的关键。本研究通过系统级仿真明确了激光模块效率与通道间功率波动是决定DWDM链路总能耗的两大核心因素，并基于此设计了集成n型调制掺杂MQW与AR/AR端面镀膜的8通道DFB-SOA阵列。

该阵列集成到ELSFP模块后，实现了小于±0.8dB的通道功率波动、小于±16GHz的通道间距误差、7.2%的模块效率、低于-130dBc/Hz的RIN以及大于40dB的SMSR。这些成果为未来机架级相干域所需的高密度、高能效光互连提供了坚实的技术基础，也为英伟达下一代Vera Rubin平台的互连架构升级铺平了道路。