硅光子3D集成突破AI计算光互连瓶颈报告

2026-06-18阅读 0热度 0

硅光子

2026年4月29-30日，在西班牙巴塞罗那举办的OCP EMEA Photonics环节上，比利时微电子研究中心（imec）光互连组合总监Peter Ossieur发表了一场分量十足的演讲，题目是《Towards wafer-scale optical interconnect relying on Silicon Photonics and advanced 3D assembly》。这场演讲的核心，是系统阐述如何通过硅光子技术与先进3D集成工艺的深度融合，来解决下一代AI计算基础设施中scale-up网络的带宽与功耗双重瓶颈。他提出了从OIO2.5D到OIO3D晶圆级光互连的完整技术路线图，听起来就很有看头。

### AI计算硬件的scale-up网络：铜互连的极限已至当下AI计算硬件的主体格局其实很清晰：CPU是大脑，GPU是翻跟斗，HBM是紧挨着GPU的贴身助手。到了最新一代，还集成了IO小芯片，分别盯着scale-up和scale-out两个网络。scale-out网络负责不同计算单元之间的跨机架流量，这个早就全面实现了光互连；而scale-up网络的任务是把多个GPU die整合成一个逻辑上的“巨型单die GPU”，突破单光刻版的尺寸限制。目前，绝大多数scale-up网络仍然依赖铜互连，并且被严格限制在单机架范围内。

scale-up网络的GPU规模扩张在过去四年里基本停滞了：2022年行业普遍能实现单机架64GPU的scale-up能力，但此后直到2026年都没有显著突破。背后的核心原因很简单——铜互连的传输距离有限，根本没法跨机架扩展。直到近期，英伟达宣布将单机架功耗提升至600kW，其UA-link接口理论上支持单scale-up域内最多1000个GPU，而谷歌的下一代超级计算机已经逼近10000GPU的规模。

这种扩张趋势对GPU的IO接口提出了前所未有的要求。2026年下半年即将量产的GPU，单条25mm边缘的scale-up接口带宽将达到双向各14.4Tb/s，对应的岸线密度约0.6Tb/s/mm，单GPU功耗约1kW。到了2032年，这个数字将飙升至双向各250Tb/s，岸线密度需要达到10Tb/s/mm，单GPU的计算功耗也将增长到3kW。这么极端的性能指标，传统铜互连和现有共封装光学技术显然已经撑不住了。

### 传统400G/lane CPO：功耗天花板无法突破为了满足scale-up网络的带宽需求，行业普遍把希望寄托在共封装光学（CPO）技术上，目标是从当前的200G/lane演进到400G/lane。imec在演讲中展示了其基于C波段FK效应电吸收调制器（EAM）和锗（Ge）光电探测器的400G/lane CPO技术方案。

FK-EAM的工作原理，是利用皮秒级的体GeSi光吸收系数随外加电场变化的物理效应，采用硅接触的GeSi横向PIN二极管结构，通过在锗中掺入1-2%的硅将工作波长拓展到C波段。这个器件的尺寸只有10×50μm²，可以集成在200mm或300mm硅晶圆上。实测消光比约4dB，插入损耗约4dB，2Vpp驱动电压下的发射机代价约9.2dB。目前imec已在300mm中试线上实现了该器件的晶圆级制造，重点正在优化工艺，以降低晶圆级性能差异。

在传输性能方面，这个FK-EAM已经实现了212.5GBaud PAM-4信号的调制，考虑6.25%的前向纠错开销后，净数据率达到400Gbps/lane。有意思的是，实测的眼图质量限制并非来自器件本身，而是来自测试所用的任意波形发生器。器件的电光带宽实测超过100GHz，完全满足400G/lane及更高速率的需求。

在光电探测器方面，imec开发了两种高性能器件：一是深凹槽嵌入式Ge PIN光电探测器，吸收区厚度小于200nm，O波段响应度可达1A/W，3dB带宽超过100GHz，寄生电容小于3fF；二是Ge雪崩光电探测器（APD），在增益约2时，有效响应度达到1.8A/W，3dB带宽约80GHz；当总响应度达到2A/W时，带宽仍可保持在90GHz。

然而，传统CPO技术面临着无法逾越的功耗天花板。当前CPO的典型功耗约为4-5pJ/bit，以此计算2032年双向500Tb/s的总带宽需求，仅光学部分的功耗就将达到1.25kW，这还没有算上DSP和驱动电路的功耗。对于单GPU总功耗仅3kW的预算来说，这显然是不可接受的。传统“快而窄”的高速单通道技术路线，已经逐渐走到尽头了。

### OIO2.5D：“宽而慢”架构的革命性突破为了解决传统CPO的功耗问题，imec提出了从“快而窄”向“宽而慢”转变的全新技术路线，并基于此开发了OIO2.5D光互连架构。这个架构的核心思想很直接：通过降低单通道速率，采用简单的非归零（NRZ）调制格式，彻底去掉复杂的DSP和高开销的前向纠错，从而大幅降低功耗和延迟；同时通过硅中介层实现XPU与光模块之间的更细间距互连，并采用32或64波密集波分复用技术，通过增加通道数量来恢复总带宽。

OIO2.5D架构的核心器件之一是硅微盘调制器。与传统的微环调制器相比，微盘调制器具有更大的自由光谱范围，可以支持更多的密集波分复用波长。imec开发的圆盘调制器半径只有2.1μm，实测自由光谱范围大于6.4THz，通过优化slab厚度（35-45nm）和N型补偿掺杂，实现了极低的光学损耗。该器件的调制带宽为26-31GHz，1Vpp驱动电压下的发射机代价约8dB，可以实现清晰的50Gbps NRZ眼图，完全满足“宽而慢”架构的需求。

为了支持32波密集波分复用，imec基于其300mm硅光子平台的193nm浸没光刻工艺，开发了紧凑型32×100GHz密集波分复用滤波器。该滤波器采用马赫-曾德尔交织器和低损耗回音壁模式环谐振器结构，实测通道插入损耗约1.91±0.28dB（范围1.59-2.55dB），通过热光微调后可进一步降低至约2dB，热调谐效率达到约370GHz/mW per ring，通道间串扰也控制在较低水平。

OIO2.5D架构的另一项关键技术是铜混合键合。通过将低电容Ge光电探测器与电芯片直接进行铜混合键合，大幅降低了光电探测器与跨阻放大器之间的界面电容，提高了链路的信噪比，从而降低了对激光输出功率的要求，进一步减少了系统总功耗。

基于上述技术，imec预测OIO2.5D架构可实现约2pJ/bit的链路功耗和2Tb/s/mm的岸线密度。以此计算，2032年双向500Tb/s的总带宽需求下，光学部分的总功耗可降至500W，仅为传统CPO方案的40%，大幅缓解了散热压力。

除了功耗优势，“宽而慢”架构还具有显著的延迟优势：它消除了高速串行化和复杂前向纠错带来的延迟，同时imec还在探索在scale-up域中采用光开关替代传统的电包交换，进一步降低网络延迟。关于光电路开关的重配置时间，热光型开关的重配置时间为微秒级，而基于钛酸钡的电光开关可达到纳秒级，但实际应用中还需要考虑控制平面的协同设计。 ### OIO3D：迈向晶圆级3D光互连 OIO2.5D虽然大幅降低了功耗，但2Tb/s/mm的岸线密度仍无法满足2032年10Tb/s/mm的终极需求。为此，imec进一步提出了OIO3D晶圆级光互连架构，将有源光器件与XPU、HBM等计算和存储芯片集成在同一个3D堆叠中，采用全无源的氮化硅波导晶圆作为光互连层，实现芯片间的直接光通信。

目前imec已成功演示了300mm晶圆级的die-to-wafer光链路，通过优化边缘耦合器的设计，实现了小于0.4dB的耦合过渡损耗，为晶圆级光互连的量产奠定了基础。

为了进一步降低功耗和提高密度，imec正在开发下一代调制器技术：一是III-V族硅基MOSCAP调制器，将III-V族材料直接集成在硅光子工艺的前端，目标实现VπL小于0.3V·cm和小于15dB/cm的光学损耗，可用于制造功耗低于1pJ/bit的下一代环形调制器；二是钛酸钡集成技术，通过分子束外延在300mm硅晶圆上生长原子级光滑、高结晶度的钛酸钡薄膜，利用其高电光系数实现更低功耗、更高速度的调制器。

OIO3D架构的目标指标是：链路功耗降至0.5pJ/bit，岸线密度提升至8Tb/s/mm。这意味着即使在2032年双向500Tb/s的总带宽需求下，光学部分的总功耗仍可保持在500W，同时岸线密度已接近10Tb/s/mm的目标。

OIO3D的终极愿景是实现完整的晶圆级3D光互连系统：在一个300mm晶圆上集成最多16个GPU、对应的HBM内存、CPU、网络处理器、激光器阵列以及中心光交换，所有芯片间的通信都通过晶圆上的氮化硅波导完成，彻底消除电互连的瓶颈。 ### 核心挑战与关键问答在演讲后的问答环节，Peter Ossieur针对行业关注的核心问题进行了详细解答：关于III-V族MOSCAP调制器的性能，目前该技术的主要目标是满足“宽而慢”架构的需求，电光带宽目标为10-20GHz，研发重点是尽可能降低光学损耗和VπL乘积，而非追求更高的带宽。其最大的集成挑战在于如何将III-V族材料引入标准硅代工厂的前端工艺，同时不能使用金作为接触金属——imec已经开发出无金的高质量接触工艺。关于基板封装与中介层封装的差异，从制造和封装角度来看，实现高岸线密度光互连的核心挑战在于极低间距（微米级）混合键合的良率和可靠性。此外，光器件的金属密度分布远不如纯电互连均匀，这使得化学机械抛光和晶圆平坦化工艺变得更加困难，需要更高水平的工艺控制才能实现高良率的量产。关于晶圆级方案的最大挑战，单晶圆级系统的总功耗将高达50kW，如何高效地从晶圆上移除如此巨大的热量，是目前面临的最严峻的技术挑战之一。随着AI计算对带宽和功耗的需求呈指数级增长，传统的电互连和“快而窄”的光互连技术已无法满足未来需求。imec提出的从OIO2.5D到OIO3D的技术路线，通过“宽而慢”的架构创新与硅光子、先进3D集成工艺的深度融合，为突破AI计算scale-up网络的终极瓶颈指明了方向，也为未来10000GPU级的超级计算机奠定了核心技术基础。

硅光子3D集成突破AI计算光互连瓶颈报告

相关阅读

最新教程

最新资讯