硅光子3D集成突破AI计算光互连瓶颈报告
### AI计算硬件的scale-up网络:铜互连的极限已至
当下AI计算硬件的主体格局其实很清晰:CPU是大脑,GPU是翻跟斗,HBM是紧挨着GPU的贴身助手。到了最新一代,还集成了IO小芯片,分别盯着scale-up和scale-out两个网络。scale-out网络负责不同计算单元之间的跨机架流量,这个早就全面实现了光互连;而scale-up网络的任务是把多个GPU die整合成一个逻辑上的“巨型单die GPU”,突破单光刻版的尺寸限制。目前,绝大多数scale-up网络仍然依赖铜互连,并且被严格限制在单机架范围内。
scale-up网络的GPU规模扩张在过去四年里基本停滞了:2022年行业普遍能实现单机架64GPU的scale-up能力,但此后直到2026年都没有显著突破。背后的核心原因很简单——铜互连的传输距离有限,根本没法跨机架扩展。直到近期,英伟达宣布将单机架功耗提升至600kW,其UA-link接口理论上支持单scale-up域内最多1000个GPU,而谷歌的下一代超级计算机已经逼近10000GPU的规模。
这种扩张趋势对GPU的IO接口提出了前所未有的要求。2026年下半年即将量产的GPU,单条25mm边缘的scale-up接口带宽将达到双向各14.4Tb/s,对应的岸线密度约0.6Tb/s/mm,单GPU功耗约1kW。到了2032年,这个数字将飙升至双向各250Tb/s,岸线密度需要达到10Tb/s/mm,单GPU的计算功耗也将增长到3kW。这么极端的性能指标,传统铜互连和现有共封装光学技术显然已经撑不住了。
### 传统400G/lane CPO:功耗天花板无法突破
为了满足scale-up网络的带宽需求,行业普遍把希望寄托在共封装光学(CPO)技术上,目标是从当前的200G/lane演进到400G/lane。imec在演讲中展示了其基于C波段FK效应电吸收调制器(EAM)和锗(Ge)光电探测器的400G/lane CPO技术方案。
FK-EAM的工作原理,是利用皮秒级的体GeSi光吸收系数随外加电场变化的物理效应,采用硅接触的GeSi横向PIN二极管结构,通过在锗中掺入1-2%的硅将工作波长拓展到C波段。这个器件的尺寸只有10×50μm²,可以集成在200mm或300mm硅晶圆上。实测消光比约4dB,插入损耗约4dB,2Vpp驱动电压下的发射机代价约9.2dB。目前imec已在300mm中试线上实现了该器件的晶圆级制造,重点正在优化工艺,以降低晶圆级性能差异。
在传输性能方面,这个FK-EAM已经实现了212.5GBaud PAM-4信号的调制,考虑6.25%的前向纠错开销后,净数据率达到400Gbps/lane。有意思的是,实测的眼图质量限制并非来自器件本身,而是来自测试所用的任意波形发生器。器件的电光带宽实测超过100GHz,完全满足400G/lane及更高速率的需求。
在光电探测器方面,imec开发了两种高性能器件:一是深凹槽嵌入式Ge PIN光电探测器,吸收区厚度小于200nm,O波段响应度可达1A/W,3dB带宽超过100GHz,寄生电容小于3fF;二是Ge雪崩光电探测器(APD),在增益约2时,有效响应度达到1.8A/W,3dB带宽约80GHz;当总响应度达到2A/W时,带宽仍可保持在90GHz。
然而,传统CPO技术面临着无法逾越的功耗天花板。当前CPO的典型功耗约为4-5pJ/bit,以此计算2032年双向500Tb/s的总带宽需求,仅光学部分的功耗就将达到1.25kW,这还没有算上DSP和驱动电路的功耗。对于单GPU总功耗仅3kW的预算来说,这显然是不可接受的。传统“快而窄”的高速单通道技术路线,已经逐渐走到尽头了。
### OIO2.5D:“宽而慢”架构的革命性突破
为了解决传统CPO的功耗问题,imec提出了从“快而窄”向“宽而慢”转变的全新技术路线,并基于此开发了OIO2.5D光互连架构。这个架构的核心思想很直接:通过降低单通道速率,采用简单的非归零(NRZ)调制格式,彻底去掉复杂的DSP和高开销的前向纠错,从而大幅降低功耗和延迟;同时通过硅中介层实现XPU与光模块之间的更细间距互连,并采用32或64波密集波分复用技术,通过增加通道数量来恢复总带宽。
OIO2.5D架构的核心器件之一是硅微盘调制器。与传统的微环调制器相比,微盘调制器具有更大的自由光谱范围,可以支持更多的密集波分复用波长。imec开发的圆盘调制器半径只有2.1μm,实测自由光谱范围大于6.4THz,通过优化slab厚度(35-45nm)和N型补偿掺杂,实现了极低的光学损耗。该器件的调制带宽为26-31GHz,1Vpp驱动电压下的发射机代价约8dB,可以实现清晰的50Gbps NRZ眼图,完全满足“宽而慢”架构的需求。
为了支持32波密集波分复用,imec基于其300mm硅光子平台的193nm浸没光刻工艺,开发了紧凑型32×100GHz密集波分复用滤波器。该滤波器采用马赫-曾德尔交织器和低损耗回音壁模式环谐振器结构,实测通道插入损耗约1.91±0.28dB(范围1.59-2.55dB),通过热光微调后可进一步降低至约2dB,热调谐效率达到约370GHz/mW per ring,通道间串扰也控制在较低水平。
OIO2.5D架构的另一项关键技术是铜混合键合。通过将低电容Ge光电探测器与电芯片直接进行铜混合键合,大幅降低了光电探测器与跨阻放大器之间的界面电容,提高了链路的信噪比,从而降低了对激光输出功率的要求,进一步减少了系统总功耗。
基于上述技术,imec预测OIO2.5D架构可实现约2pJ/bit的链路功耗和2Tb/s/mm的岸线密度。以此计算,2032年双向500Tb/s的总带宽需求下,光学部分的总功耗可降至500W,仅为传统CPO方案的40%,大幅缓解了散热压力。
除了功耗优势,“宽而慢”架构还具有显著的延迟优势:它消除了高速串行化和复杂前向纠错带来的延迟,同时imec还在探索在scale-up域中采用光开关替代传统的电包交换,进一步降低网络延迟。关于光电路开关的重配置时间,热光型开关的重配置时间为微秒级,而基于钛酸钡的电光开关可达到纳秒级,但实际应用中还需要考虑控制平面的协同设计。
### OIO3D:迈向晶圆级3D光互连
OIO2.5D虽然大幅降低了功耗,但2Tb/s/mm的岸线密度仍无法满足2032年10Tb/s/mm的终极需求。为此,imec进一步提出了OIO3D晶圆级光互连架构,将有源光器件与XPU、HBM等计算和存储芯片集成在同一个3D堆叠中,采用全无源的氮化硅波导晶圆作为光互连层,实现芯片间的直接光通信。
目前imec已成功演示了300mm晶圆级的die-to-wafer光链路,通过优化边缘耦合器的设计,实现了小于0.4dB的耦合过渡损耗,为晶圆级光互连的量产奠定了基础。
为了进一步降低功耗和提高密度,imec正在开发下一代调制器技术:一是III-V族硅基MOSCAP调制器,将III-V族材料直接集成在硅光子工艺的前端,目标实现VπL小于0.3V·cm和小于15dB/cm的光学损耗,可用于制造功耗低于1pJ/bit的下一代环形调制器;二是钛酸钡集成技术,通过分子束外延在300mm硅晶圆上生长原子级光滑、高结晶度的钛酸钡薄膜,利用其高电光系数实现更低功耗、更高速度的调制器。
OIO3D架构的目标指标是:链路功耗降至0.5pJ/bit,岸线密度提升至8Tb/s/mm。这意味着即使在2032年双向500Tb/s的总带宽需求下,光学部分的总功耗仍可保持在500W,同时岸线密度已接近10Tb/s/mm的目标。
OIO3D的终极愿景是实现完整的晶圆级3D光互连系统:在一个300mm晶圆上集成最多16个GPU、对应的HBM内存、CPU、网络处理器、激光器阵列以及中心光交换,所有芯片间的通信都通过晶圆上的氮化硅波导完成,彻底消除电互连的瓶颈。
### 核心挑战与关键问答
在演讲后的问答环节,Peter Ossieur针对行业关注的核心问题进行了详细解答:
关于III-V族MOSCAP调制器的性能,目前该技术的主要目标是满足“宽而慢”架构的需求,电光带宽目标为10-20GHz,研发重点是尽可能降低光学损耗和VπL乘积,而非追求更高的带宽。其最大的集成挑战在于如何将III-V族材料引入标准硅代工厂的前端工艺,同时不能使用金作为接触金属——imec已经开发出无金的高质量接触工艺。
关于基板封装与中介层封装的差异,从制造和封装角度来看,实现高岸线密度光互连的核心挑战在于极低间距(微米级)混合键合的良率和可靠性。此外,光器件的金属密度分布远不如纯电互连均匀,这使得化学机械抛光和晶圆平坦化工艺变得更加困难,需要更高水平的工艺控制才能实现高良率的量产。
关于晶圆级方案的最大挑战,单晶圆级系统的总功耗将高达50kW,如何高效地从晶圆上移除如此巨大的热量,是目前面临的最严峻的技术挑战之一。
随着AI计算对带宽和功耗的需求呈指数级增长,传统的电互连和“快而窄”的光互连技术已无法满足未来需求。imec提出的从OIO2.5D到OIO3D的技术路线,通过“宽而慢”的架构创新与硅光子、先进3D集成工艺的深度融合,为突破AI计算scale-up网络的终极瓶颈指明了方向,也为未来10000GPU级的超级计算机奠定了核心技术基础。