混合键合深度解析:如何实现数十亿级芯片互连
混合键合技术正从根本上重塑芯片互连的极限。当互连节距压缩至1微米级时,单个封装内的连接数量轻松突破数百亿乃至向万亿级迈进。面对如此量级,传统的逐一检测方法已彻底失效,取而代之的是从架构层面预设缺陷、嵌入容错机制的设计范式。
混合键合的核心价值在于,它能在单个封装内实现数百亿乃至未来数万亿级的互连。这看似不可思议,但底层逻辑非常清晰:关键在于两个前提——晶圆级别的极致工艺均一性,以及内置的测试与冗余架构。
Synopsys I/O库IP产品市场总监Lakshmi Jain一针见血地指出:“混合键合实现了前所未有的互连密度。将小芯片平铺在全尺寸中介层上,以1微米节距键合,内部连接数可轻松达到数百亿级。在这种规模下,制造成功与否不再依赖对单条互连的管控,而是取决于架构层面的设计——它必须预设一定比例的缺陷存在,并具备容错能力。”
目前混合键合已支持10微米到1微米节距的无凸块互连。1微米节距在当下标准中已相当激进,但这远非物理极限。EV Group业务拓展经理Thomas Pleschke透露了一个更惊人的可能性:“理论上,我们可以将两片300毫米晶圆以200纳米焊盘节距键合,实现数万亿级别的连接。”
平面硅工艺的最大优势在于并行处理。无论是百万还是百亿级连接,数量本身并非真正的挑战——真正考验人的是工艺的均一性。跨晶圆的工艺波动一旦失控,后果将是灾难性的。因此,在I/O端口增加测试基础设施,在键合前后分别进行检测,就成了保障可靠性的关键手段。
达到百亿级连接并不困难
实现百亿级连接的核心技术支撑,是1微米节距的混合键合。简单换算:每毫米可容纳1000个“凸块”——这里用“凸块”仅为便于理解,因为混合键合的本质恰恰是去掉凸块,直接实现焊盘对焊盘的结合。
以一个典型的处理器封装为例,可以直观感受这个数量级是如何堆叠出来的。
图1:用于统计连接数量的处理器封装示意图。若HBM4堆叠层数为16层,连接总数可超过260亿。(来源:Bryon Moyer / Semiconductor Engineering)
这个封装内有8颗英特尔Nova Lake处理器芯片,每颗尺寸14.8×6.6平方毫米,理论上每颗可提供超过9700万个连接,8颗合计约7.81亿个。12组16层堆叠的HBM4,每颗DRAM芯片尺寸11×11平方毫米,合计可带来超过230亿个连接。单颗I/O小芯片参照AMD产品设计,同样为11×11平方毫米。中介层若按三个光罩单元尺寸计算,约为3×(28×33平方毫米),还可提供超过25亿个连接。
将这几部分相加,总连接数约达267亿。其中绝大多数来自HBM4,因此即便中介层无法与封装基板进行混合键合,单个封装内的连接数也稳稳站在了数百亿的量级。当然,HBM4堆叠可以在芯片级和堆叠级分别完成测试后再键合到中介层,这在一定程度上简化了验证流程,但不会改变一个核心事实:单个封装内的百亿级连接很快就不再是新闻,而是标配。
问题是,面对如此天文数字的连接,工程师如何确认每一条都正常工作?混合键合的连接尺寸极小、密度极高,键合完成后光学检测已基本不可能。即便只测试开路和短路,逐一测一遍也会耗费难以承受的时间——前提是还能找到单独访问每条连接的方法,而这本身就是巨大的工程难题。
因此,确保连接质量需要从两个方向同时发力:工艺必须在整个晶圆范围内高度一致,保证键合焊盘的刻蚀和填充均匀;同时必须内置测试基础设施,让测试变得可操作。
从一开始就把工艺做对
先进半导体制造面临的最大挑战之一,就是工艺波动。要让单颗芯片正常工作,上面所有的键合焊盘必须以完全相同的方式制造出来。这意味着氧化层生长、孔洞刻蚀、金属填充,以及键合前金属回退——这一步是为了确保氧化层先于金属形成键合——每一步都必须做到精准一致。任何一条连接的失效,都可能导致整颗芯片报废。
混合键合以严苛的工艺要求著称。氧化层和金属表面必须极度洁净,才能像单片氧化物或铜那样实现完美键合。Pleschke强调:“混合键合对表面处理有很高要求,通常需要表面粗糙度低于0.5纳米。等离子体工艺气体、射频参数和处理时间都是关键工艺参数。”
单颗大尺寸芯片上的均一性已经够难,若要获得良好的晶圆级良率,还需要极高的跨晶圆均一性。这种均一性无法保证所有连接都完好无损,但能大幅提高良率,从而减轻后续测试的压力。
Pleschke补充道:“对铜碟形效应的精确控制至关重要,包括在化学机械抛光(CMP)过程中对高度、形貌和均一性的管控。铜通常凹陷3到5纳米,焊盘尺寸和分布需保持均匀一致——铜焊盘膨胀大约为1纳米/每微米铜厚度/每50摄氏度温升。”
并行处理的优势
平面工艺的优势在于所有芯片和焊盘可以并行处理——前提是工艺波动受到严格管控。Lam Research先进封装业务总经理Chee Ping Lee解释说:“制造数十亿个互连之所以可行,是因为整条半导体工艺线——包括光刻、沉积和刻蚀——被设计为在晶圆级别并行运作。介电质沉积实现了混合键合中晶圆间的初始结合;随后,等离子体在介电材料上钻出数十亿个孔,具有高度可重复且边壁轮廓清晰的特性,保留了初始光刻图形的精度;最后,数十亿个孔同步填充金属,形成完整的互连。”
Lee用了一个非常形象的比喻来说明这个规模:“这就像在美国全境均匀制造降雨,精度之高,使得间距一米放置的水桶以完全相同的速率接满雨水。”
为了降低堆叠高度——尤其是HBM——并缩短互连路径,晶圆被研磨得越来越薄,临时键合材料(TBM)则负责将薄化后的晶圆固定在载体上以维持稳定性。
Brewer Science应用工程师Amit Kumar指出:“利用混合键合实现高带宽内存的技术路线,要求将晶圆超薄化至数十微米,以缩短堆叠后的信号路径。这对材料性能提出了多项严苛要求。其中最关键的是:在多次堆叠键合循环中保持机械和热稳定性,极低的总厚度偏差(TTV)以保证均一性,以及临时键合材料的颗粒级清洁能力。”
介电材料的重要性
相邻的混合键合焊盘之间由介电材料隔离。当信号间距过小时,信号完整性会受到影响,而采用低介电常数的介电材料有助于缓解这个问题。
Kumar解释说:“当I/O密度提升一个数量级时,金属导体之间的间距随之缩小。为了维持信号完整性,介电材料在高频下需要具备极低的介电常数。”
节距缩小还会对介电材料施加更大的应力。Pleschke表示:“介电材料必须承受更高的应力,并提供比大节距架构中更强的键合能量,以应对铜焊盘间距缩小带来的应力增加。”
另外,铜会在某些介电材料中发生迁移,这在更小的尺寸下会成为额外的可靠性隐患。Pleschke补充说:“需要通过合理选择介电材料来控制铜扩散,比如氮化硅(SixNy)、氮氧化硅(SiON)和碳氮化硅(SiCN)。”
不过也需要留意,这些材料的介电常数都高于二氧化硅:SiON在3.9到7.5之间,SiCN在4.0到9.0之间,Si3N4在6.0到7.5之间,而二氧化硅的介电常数大约是3.9到4.2。换句话说,在抑制铜扩散和保持信号完整性之间,存在一个需要权衡的选择。
检测已不现实
Pleschke直言:“随着混合键合焊盘尺寸缩小,质量保证工作的难度和工具要求也在同步上升。”
鉴于这些连接的尺寸和密度,光学检测确实已不再可行。Lee表示:“在混合键合所支持的规模下,逐一检测每个焊盘在技术上已不再可能,这对计量设备供应商构成了巨大的挑战。”
其他业内人士也有同样的判断。Jain补充说:“在如此高的密度下,缺陷往往不是视觉上能看出来的。它们通常是电学性质的,而且局部集中,表现为键合强度弱、开路,或者边缘行为、小范围失效簇。”
既然逐一检测每条连接已经不现实,测试就成了剔除失效芯片的下一道防线。这里的挑战在于,每颗芯片可以在键合前单独测试,但键合后还需要再测一遍,才能确认键合质量本身没有问题。
用测试代替检测
这类芯片需要内置自测试(BiST)机制来验证连接状态。这包括测试引擎和冗余设计,以便在发现不良连接时进行修复。
应对这一挑战的一个有效方法,是将I/O划分为若干簇,每个簇都具备自我完备的基础设施,可以独立运作。这些簇可以通过复制来扩展所需的连接总数。
Synopsys的3DIO IP就是这种方法的典型案例。每个簇提供16条通道——每条通道每个方向各有一个焊盘——并配备独立的时钟树,支持双倍数据速率(DDR)时钟下的4到6 Gb/s数据速率,同时集成了VDD和接地连接以及ESD保护。
Jain解释说:“3DIO PHY不去逐一验证每个互连,而是将互连分组为小型可重复的簇,使每个簇可以独立测试。内嵌的内置自测试支持键合前和键合后的测试,能够早期确定性地检测键合问题。由于这个PHY没有协议依赖,不依赖链路训练,在制造测试过程中可以直接观测时序行为,不受协议约束。”
最重要的是,每个簇都内置了BiST引擎、冗余设计和修复能力,使芯片能够自检连接状态,并且键合前后都可以执行。这些簇通过编译器进行配置,冗余量可以根据应用需求灵活设定。冗余机制允许通过修复流程,把存在失效连接的芯片通过切换到备用焊盘的方式挽救回来,避免直接报废。
冗余与修复至关重要
测试过程中发现的缺陷通常是随机分布的,这就为修复提供了机会。通过备用焊盘,可以在主焊盘出现不良连接时切换使用,让原本可能被丢弃的失效芯片重获新生。
Jain指出:“在实际生产环境中,大多数良率损失来自局部、稀疏分布的随机缺陷,而不是系统性的问题。因此,所需的冗余量在很大程度上取决于具体的工艺技术和晶圆厂的缺陷特性,并不存在一个适用于所有实现场景的统一冗余比例。”
Synopsys的簇式架构意味着冗余资源可以在簇级别提供,随着簇数量增加,扩展性大大提升。Jain说:“在PHY层面,我们支持能够识别失效通道或簇的制造测试,从而基于实际硅片数据应用修复、重映射或冗余策略。通过在簇级别运作,该架构提供了足够的粒度来吸收实际制造缺陷,同时避免了不必要的过度设计。”
保障可靠性
可靠性问题看起来有点喜忧参半。往好了说,更小的组件和连接按理说更容易可靠地制造;但另一方面,当需要制造数十亿个连接时,从统计概率的角度来看,难免会有一部分出现可靠性问题。
不过实际数据表明,更短、更小的连接反而胜出了——其可靠性已经超越了传统的微凸块方案。Lee表示:“超短的混合键合铜对铜连接,与传统微凸块接口相比,具有更低的电阻和电容,信号完整性更优。比特误码率的改善幅度因系统而异,但混合键合提供了更均匀的界面,与早期芯片集成方案相比,信号退化明显更少。”
Jain也认同这一点:“当裕量在工艺、电压、温度(PVT)和老化条件下都经过合理设计和验证后,随机比特误差的概率变得极低,仅限于罕见的统计事件。因此,极低的误码率(BER)可以直接在PHY层面实现,不需要依赖高层协议通过重传或ECC来掩盖错误。这种内在的PHY级可靠性,对于扩展高密度混合键合互连网络至关重要。”
挑战还将持续加剧
前面反复提到的1微米,只是一个便于理解的数字,远不是物理极限。如前所述,理论上业界已经具备了制造200纳米节距焊盘的能力。未来随着焊盘节距进一步缩小,焊盘形状可能也需要跟着调整。
Pleschke预测说:“随着焊盘尺寸和节距持续缩小,铜表面占比会上升,铜密度可能需要采用优化的六边形焊盘排布,并引入哑焊盘来保证均一性。”
这个领域的复杂程度,也使得跨行业协作变得格外重要。Pleschke表示:“混合键合是一项涉及材料、半导体和机电一体化的多维度跨领域挑战,需要整个价值链从研发到量产阶段的紧密协作。”
随着混合键合技术日渐普及,连接数量不断攀升,新的挑战还会持续涌现。要确保数十亿乃至数万亿级别的连接能以可预测、高可靠、高性能的方式构建起来,还需要更多的新思路和新方案。
Q&A
Q1:混合键合技术为什么能实现数十亿级别的芯片连接?
A:混合键合支持低至1微米的焊盘节距,每毫米可容纳1000个连接点。以一个典型的处理器封装为例,8颗处理器芯片、12组HBM4堆叠和中介层的连接数加在一起可超过267亿。平面硅工艺支持大规模并行处理,这使得数十亿级别的连接在工程上成为现实。
Q2:混合键合封装中数十亿个连接如何保证质量,为什么不能逐一检测?
A:由于混合键合连接尺寸极小、密度极高,光学检测已不再可行,逐一电测也需要耗费大量时间。因此业界转而依赖两种手段:一是确保跨晶圆的极高工艺均一性,从源头减少缺陷;二是引入内置自测试(BiST)机制,将I/O划分为可独立测试的簇,并配备冗余焊盘和修复能力,在发现失效连接后通过切换备用焊盘来挽救芯片。
Q3:混合键合中介电材料起什么作用,选择时有哪些难点?
A:介电材料用于隔离相邻焊盘,防止信号串扰。节距越小,导体间距越近,对低介电常数的要求就越高。同时,节距缩小会加大介电材料的应力负担,还需要防止铜扩散引发可靠性问题。常用的SiON、SiCN、Si3N4虽能阻止铜扩散,但其介电常数均高于二氧化硅,因此在信号完整性与材料可靠性之间需要做出权衡。
