AI芯片良率提升：高带宽内存左移测试策略深度解析

2026-05-13阅读 0热度 0

AI芯片

高带宽内存（HBM）的堆叠层数持续增加，硅通孔（TSV）间距不断微缩。这些技术演进，直接考验着AI模组的最终良率。应对策略清晰：将测试节点前置。但“左移”意味着必须直面由此带来的额外成本。

当前，HBM已成为AI系统的核心内存解决方案。面对持续增长的数据洪流，AI对内存带宽和容量的需求似乎永无止境。过去十年间，HBM芯片的堆叠层数已从2层发展到12层，16层堆叠也已提上日程。相应地，AI数据中心的多芯片封装中，HBM堆叠的数量也从4个增至8个。

一个关键的成本结构变化是，HBM芯片的成本已占据整个AI芯片成本的近半数。这意味着，若在最终测试环节才发现堆叠存在缺陷，经济损失将是灾难性的。这正是“已知良好堆叠”（KGS）理念受到高度重视的根本原因。然而，芯片堆叠工艺本身极为精密：TSV与微凸点的对准精度要求达微米级；晶圆减薄与划片过程引入的机械应力，可能加剧既有的裂纹、滑移或划痕缺陷；热压键合则可能引发断路、短路、“枕头效应”及高阻抗连接等一系列问题。

更大的挑战在于缺陷检测本身。堆叠芯片测试需要在测试覆盖率、测试时间、机械处理、热管理和供电之间取得精细平衡。工程团队固然可以借助可测性设计（DFT）和高并行多站点测试来优化成本，但堆叠芯片因结构高度和功耗带来的热管理问题尤为棘手。随着HBM4及后续技术的到来，这一挑战将更加严峻。

新思科技（Synopsys）SLM产品管理总监Faisal Goriawalla指出，超大规模数据中心的数据显示，HBM故障是导致数据中心GPU故障的首要原因。研究证实，由于其复杂的垂直堆叠结构，HBM比传统DRAM更易出现故障，其中列故障（如TSV缺陷）尤为常见。从HBM3演进到HBM4，多芯片支持需要进一步升级。2048位的内存接口要求显著增加穿越堆叠的TSV数量，这意味着外部凸点间距必须进一步缩小，微凸点总数将大幅增加。此外，支持16层高的TSV堆叠，为连接更多DRAM芯片而不引入缺陷带来了全新的复杂性。

面对现状，解决方案明确：必须在制造流程的更早阶段实施测试，以便在封装前就将有缺陷的堆叠剔除。目前，为了产出合格的HBM堆叠芯片，测试流程在晶圆级和堆叠芯片级设置了多个插入点：HBM逻辑芯片和DRAM芯片均需经过晶圆测试；每颗DRAM还需经历晶圆级老化、高低温测试以及修复等多轮测试。随后，DRAM晶圆经过减薄、植球和划片，再堆叠到逻辑基底芯片上，并进行一系列测试。具体的测试节点因封装厂的工艺而异——可在每层DRAM堆叠后进行，也可在堆叠2层或4层后进行，最终完成堆叠晶圆的划片。

理论上，可以对已划片的HBM DRAM堆叠进行单独测试，但目前该方案尚未投入大规模应用。

泰瑞达（Teradyne）内存事业部产品营销经理Hanh Lai解释，左侧测试流程是当前的行业标准。它被认为最具成本效益且风险最低，因为无需对已划片的堆叠芯片这类特殊结构进行探针测试，尽管在晶圆上堆叠芯片确实存在平整度挑战。不过，业界对已划片堆叠芯片测试的兴趣正在增长，探针设备供应商也在积极开发相应解决方案。背后的驱动力在于，像英伟达（Nvidia）、超威半导体（AMD）这样的系统集成商高度关注最终封装良率——在典型的GPU封装中，一颗GPU周围环绕着八个HBM堆叠，任何一个HBM堆叠出现缺陷，损失都极为高昂。

随着单颗坏芯片或坏堆叠的成本不断攀升，测试左移的驱动力也越来越强。

Aehr Test Systems销售与市场营销执行副总裁Vernon Rodgers认为，核心是成本问题。降低报废率、提升良率、减少浪费，这些目标共同驱动着测试策略的选择。或许过去左移的成本过高，但如今良率成本曲线正强力推动测试向更早阶段迁移。以晶圆级老化测试为例，它能有效筛除与早期失效相关的缺陷。随着堆叠层数增加、封装尺寸增大，这一点变得愈加关键。

FormFactor高级产品营销总监Kevin Tran持相同观点：随着HBM器件的复杂度和成本不断攀升，测试内容持续向流程前端迁移。这种左移有助于防止缺陷芯片进入成本高昂的堆叠工序，同时推动晶圆测试阶段对高速测试、更高并行度以及更严格热控制的需求。

晶圆测试与老化

实现“已知良好堆叠”的基石，是确保每颗芯片都是“已知良好芯片”（KGD）。对每颗DRAM及逻辑基底芯片进行全面的晶圆测试，需要覆盖内部电路、核心存储单元以及TSV。

DRAM测试需要数千种针对其特定内存架构的测试图案。由于存储单元密度极高，冗余修复技术在测试过程中至关重要——缺少它，晶圆级良率将大幅下降。测试图案由自动测试设备（ATE）提供，为降低测试成本，DRAM芯片通常以64至128个站点并行测试。

业界专家特别强调逻辑基底芯片测试的重要性，因为它是访问堆叠内存芯片的唯一通道，对堆叠芯片的最终良率影响重大。Rodgers指出，设想一个堆叠结构——一颗逻辑基底芯片加上8到16颗HBM芯片。确保基底逻辑芯片的最高质量至关重要，因为一旦它存在缺陷，整个堆叠的芯片都将报废，这对良率曲线的影响是巨大的乘数效应。

逻辑基底芯片的测试重点集中在DFT电路上，这些电路支撑着HBM DRAM在整个堆叠过程及产品全生命周期内的测试能力。测试通过JEDEC规范的直接访问接口或IEEE 1500标准，利用有限数量的焊盘或微凸点来实施。在逻辑晶圆测试阶段执行测试，可确保内部逻辑、IEEE 1500电路、直接访问总线、内存内建自测（MBiST）、TSV连通性以及PHY电路均无缺陷。

然而，随着HBM每一代产品的演进，晶圆探针测试的挑战也在不断加剧。

Tran表示，在先进DRAM工艺节点（尤其是HBM所采用的节点）上，晶圆级测试已超越简单的接触和功能筛选，演变为涵盖机械性能、供电、信号完整性和吞吐量等多个维度的综合挑战。焊盘几何尺寸缩小的问题，可通过先进MEMS探针技术来应对——该技术能够提供更小的间距和更优的精度控制。HBM4和HBM5对速度与功耗提出了新要求，未来几代产品的数据传输速率将突破10 Gbps，每个HBM堆叠的功耗也将高达100瓦。MEMS探针具备更高的电流承载能力，与经过优化的探针卡级供电设计相结合，能够满足KGD测试的高功率、高速度需求。

典型的DRAM测试流程包含晶圆级老化环节，通过加速激活潜在缺陷，以便后续标准测试能够有效检出。Rodgers解释说，老化测试解决两个问题：第一，筛查薄弱器件，例如栅氧化层缺陷；第二，由于存储单元本质上是电容，需要对其数值进行稳定化处理。行业内一直存在争论——究竟应该在晶圆级、单颗芯片级还是封装级进行老化？但现在，当我们开始进行芯片堆叠时，目标是尽量前移，这正是推动晶圆级老化测试兴起的核心驱动力。

晶圆级老化测试的接触方案需要应对探触测试访问焊盘/凸点时的机械挑战，可通过MEMS技术或微弹簧针（micro-pogo）来实现，适用于300mm晶圆。

将DFT与铝制测试焊盘上的探针测试相结合，有助于进一步降低测试成本。在规定HBM I/O微凸点布局时，JEDEC标准预留了添加牺牲测试焊盘的空间。Rodgers指出，当你使用牺牲焊盘并适当拉开间距时，探针卡的成本会大幅下降，无需花费50万美元购置一张探针卡，最高可节省80%的探针卡成本。DFT不仅保障了测试质量，更重要的是，它带来了一种低成本的晶圆级老化测试方案——你可以选择微弹簧针而非MEMS。我可以在两个截然不同的成本区间提供技术方案，而DFT将决定你实际所处的成本层级。

堆叠芯片测试

对堆叠芯片进行测试，能够有效降低AI产品最终测试阶段的良率风险。如前所述，当前标准的制造与测试流程是在晶圆形态下将HBM堆叠至基底芯片上，再由测试接口从晶圆背面进行探针测试，多站点并行测试已成为行业标配。但芯片堆叠在热管理、供电以及机械处理方面带来了严峻挑战，而随着测试插入次数的增加，控制测试成本也愈发困难。对于12层堆叠芯片而言，测试插入次数因封装厂的质量标准不同，可从3次到12次不等。

Tran指出，DRAM芯片堆叠过程中可能引入新的错误，包括堆叠内部高速数据传输相关问题、更高堆叠对更大功率和电流的需求，以及由此带来的散热挑战。通过对堆叠芯片进行测试和分选，可以在早期剔除缺陷芯片，从而有效降低整体测试成本。堆叠芯片测试要求对准精度达到个位数微米级别，而HBM5要求最高16层堆叠，这使得对准精度的要求愈发严苛，必须充分考虑TSV和键合容差。

也有观点强调了在封装过程中进行中间测试的重要性。

安靠（Amkor Technology）全球测试服务副总裁Omer Dossani表示，随着HBM成本持续攀升，封装过程中的中间测试变得越来越关键。为此，业界正在开发新型接触机制，以实现在中间阶段的可靠测试。许多挑战在我们工厂进入大批量生产（HVM）阶段之前便已得到解决，但它们仍是重要的制造考量因素，需要在测试过程中对温度稳定性实施越来越严格的管控，并使用专用测试插座、专用清洁材料，以及在整个制造过程中加强数据监控。

在测试方案的选择上，供电和热管理始终是核心考量，但随着堆叠高度增加，复杂程度也随之上升。Rodgers用了一个生动的比喻：如果你看一栋16层的建筑，阳光照射外墙，中心部分几乎感受不到热量。而堆叠芯片恰恰相反——外层可以散热，但中心层的热量如何导出？在堆叠芯片老化或测试过程中，如何管理中间芯片层的温度至关重要。

Teradyne的Lai也指出了这一问题：难点在于如何管理这些器件产生的热量。探针设备公司需要为HBM堆叠提供有效散热方案。目前，我们的测试机可根据器件引脚数和功率需求，支持最高128个器件的并行测试。从HBM3到HBM4，功耗增幅预计超过两倍，这对探针设备和探针卡公司都提出了严峻的散热挑战。

在2.5D集成封装之前对已划片的堆叠芯片进行测试，是一种颇具吸引力的左移测试方案，同时还支持主动热控制（相对于全晶圆测试所采用的被动热控制），能够在测试过程中实现更精确的温度管理。针对已划片堆叠芯片的测试方案涉及多项技术——堆叠芯片载板、上下料设备、堆叠芯片处理机以及主动热控制系统，均价格不菲，且都需要进一步开发成熟的HVM量产解决方案。

目前对堆叠芯片进行测试的主流方案，是在划片前从逻辑基底芯片背面的铝制焊盘进行探针测试，这些焊盘位于微凸点布局中预留的专用空间内。因此，ATE需要同时具备逻辑和内存测试能力，在多达128个测试站点并行测试时，供电需求极为可观。

将DRAM堆叠至基底芯片后，可利用逻辑基底芯片的MBiST（通常可编程）或直接访问总线对核心存储单元进行测试，并在每次测试插入时对有缺陷的TSV实施修复。

Goriawalla表示，SoC设计者必须能够部署一套灵活的BiST引擎，支持在不同应用场景（制造测试、上电自测（POST）、系统内调试与诊断）下切换不同算法，以实现高覆盖率与测试时间之间的平衡。该引擎必须可编程，以适应不同DRAM厂商在延迟、地址范围及测试操作时序上的差异，还可能需要支持针对HBM DRAM的封装后修复（PPR），以推迟现场服务的介入时机。BiST引擎所执行的诊断必须精确到位，能够在检测到DRAM堆叠存在缺陷时，准确指出发生故障的Bank、行地址、列地址等信息。

结语

尽管HBM DRAM厂商目前具有一定的溢价能力，但其核心关注点依然是降低成本。Teradyne的Lai指出，内存厂商的思维模式是，测试方案必须经过优化且尽可能低成本——这一点比那些产品生命周期极短的SoC厂商更为突出。HBM厂商在这个竞争激烈的市场中深耕多年，历来利润空间有限。

尽管如此，报废损失带来的经济压力正在推动HBM堆叠芯片厂商在流程更早阶段开展更多测试，这不可避免地增加了测试成本。但这一成本或许能通过在基底芯片上部署灵活的MBiST来部分抵消，后者允许对测试内容进行灵活权衡。然而，以高并行度对堆叠芯片进行测试，对ATE的供电和散热方案提出了更高要求。此外，对已划片堆叠芯片进行测试的方案仍有待验证，其经济影响尚存不确定性。

Q&A

Q1：为什么HBM测试需要向制造流程的更早阶段迁移？

随着HBM芯片堆叠层数增加（最高可达16层），单个坏芯片或坏堆叠的损失成本急剧攀升。HBM成本已接近AI芯片总成本的一半，如果缺陷堆叠到最终测试阶段才被发现，损失极为高昂。通过在制造流程更早阶段（如晶圆级老化测试）筛查出缺陷，可以避免缺陷芯片进入昂贵的后续堆叠工序，从而有效降低报废损失，提升整体良率。

Q2：HBM堆叠芯片测试在热管理方面面临哪些挑战？

堆叠芯片的散热问题与普通芯片完全不同。外层芯片可以正常散热，但中间层产生的热量难以有效导出。随着HBM从HBM3升级到HBM4，每个堆叠的功耗预计增加超过两倍，未来甚至可能达到100瓦。这对探针设备和探针卡公司提出了严峻挑战，需要通过主动热控制等手段，确保测试过程中各层芯片的温度均处于可控范围内。

Q3：DFT（可测性设计）在降低HBM测试成本方面具体能发挥哪些作用？

DFT在降低HBM测试成本方面作用显著。一方面，通过在微凸点布局中预留牺牲测试焊盘，可将探针卡成本降低高达80%，无需购置价格高达50万美元的高端探针卡；另一方面，基底芯片上可编程的MBiST引擎支持在制造测试、上电自测和系统内调试等不同场景下灵活切换测试算法，在测试覆盖率和测试时间之间实现最优平衡，从而在保证测试质量的同时有效控制成本。

AI芯片良率提升：高带宽内存左移测试策略深度解析

晶圆测试与老化

堆叠芯片测试

结语

Q&A

相关阅读

最新教程

最新资讯