DefectNet:千种光谱数据精准识别六种取代型缺陷
在生物学中,“缺陷”往往意味着异常或有害。但在材料科学领域,事情恰恰相反——缺陷可以被有意调控,成为赋予材料全新功能的关键手段。从钢铁、半导体到太阳能电池,工程师们会精心引入原子尺度的缺陷,以此提高强度、控制导电性、优化器件性能。比如说,硅中的可控掺杂就能调节载流子浓度;而在超宽禁带半导体中,缺陷工程正成为提升下一代功率电子器件性能的重要路径。
缺陷分析无疑是个强大的工具,但要准确测量成品材料中不同类型缺陷及其浓度,尤其是在不切割或损坏样品的前提下,依然是个不小的难题。如果工程师摸不清材料中到底存在哪些缺陷,造出来的产品很可能性能不佳,甚至出现意料之外的特性。现有的缺陷表征技术虽然不少,但在灵敏度、选择性、可定量性以及是否破坏样品这些方面,都还有明显的短板。
也正是在这样的背景下,麻省理工学院(MIT)的研究团队带来了一项有意思的进展——他们开发了一个名为 DefectNet 的基础型机器学习模型,能够直接从测量声子态密度(PDoS)的振动光谱中,预测出取代型点缺陷的化学种类及其浓度,而且就算多种缺陷共存也能搞定。模型基于来自 2,000 种半导体材料、超过 16,000 条模拟光谱数据训练而成,采用定制化的注意力机制,可以识别最多 6 种不同的缺陷元素,浓度范围从 0.2% 到 25% 都能覆盖。更难得的是,模型在包含 56 种元素的未见晶体上也表现出了不错的泛化能力,还能通过实验数据进行微调。研究团队用 SiGe 合金与 MgB₂ 超导体的非弹性散射实验数据验证了模型的准确性和可迁移性。
这项研究的核心亮点在于:第一,把测量声子态密度的振动光谱和机器学习结合起来,为体材料中点缺陷的无损表征与定量分析找到了一条很有潜力的新路子;第二,引入了光谱注意力机制,专门解决低浓度下含缺陷晶体与完美晶体的声子光谱几乎没差别的问题;第三,使用机器学习原子间势(MLIPs),绕开了基于密度泛函理论(DFT)的声子模拟那高昂的计算成本。
相关研究以预印本形式发表在 arXiv 上,论文地址为:https://arxiv.org/abs/2506.00725
数据集:基于 2 千种完美晶体材料构建
研究团队构建了一个包含 16,000 条掺杂超级细胞的数据集,这些数据来自 2,000 种完美晶体材料,涵盖了二元、三元、四元及五元半导体,具体分布看下图:
母体化合物的组成分类,从二元到五元系统,其中三元化合物最常见。
取代型缺陷则选自周期表前 56 种元素(稀有气体除外),可以单独或组合引入,以此模拟真实的共掺杂场景,也为未来高维设计空间中的缺陷工程提供了参考。
上图是生成的掺杂超级细胞中掺杂元素的分布情况,化学多样性一目了然。
具体操作上,研究人员用机器学习推荐器来指导取代元素的选择——每个结构都会通过掺杂剂推荐器筛选出 n 型和 p 型掺杂候选。接着,把母体晶体扩展成包含 433–500 个原子的超晶胞,尺寸自适应调整,以确保稀掺杂浓度下限大约在 0.2% 左右。掺杂剂被替换进母体晶格后,每个结构都要经过结构弛豫,直到所有原子力收敛到 0.01 eV/Å 以下。弛豫完成后,再利用有限位移法计算 PDoS 来评估振动性质,这些就成了 DefectNet 的谱输入。
这里需要提一句,结构弛豫指的是玻璃态物质内部原子排列随时间或在退火过程中逐渐转变为更稳定结构的过程。
DefectNet:从 PDoS 中无损识别点缺陷的化学种类及浓度
DefectNet 的目标很直接——从声子光谱里无损地预测出缺陷的化学元素和浓度。它的整体架构可以拆成四个模块,工作流程如下:
上图是 DefectNet 的工作流程。
数据生成
在构建好数据集后,研究人员使用 MACE-MP-0 基础型 MLIP,在冻结声子形式下,对完美晶体和掺杂超级细胞进行了高通量的结构弛豫与声子计算。为了模拟实验分辨率,还专门对计算得到的 PDoS 曲线做了高斯平滑处理。
DefectNet 输入
模型接收四种输入信息:母体完美晶体的组成、完美晶体的 PDoS、掺杂体系的 PDoS,以及可能缺陷化学种类的初始猜测。这个初始猜测可以来自人工直觉或已有知识,也可以通过一个基于机器学习的缺陷推荐器自动生成——这是个概率模型,专门预测最可能的取代元素。有意思的是,虽然训练数据是模拟出来的,但这个框架设计允许通过微调来适应实验光谱数据,比如非弹性中子散射(INS)数据。
模型架构
DefectNet 基于 PyTorch 实现,采用模块化架构,由四个核心部分组成:
基于一维卷积的谱编码器:输入是三条长度为 100 的一维信号——未掺杂材料的 PDoS、掺杂后的 PDoS、宿主晶体的组成向量。这些信息被拼接成一个三通道输入,通过一维卷积网络提取特征,最终形成 100 个“谱 token”,每个 token 是一个 128 维向量。
掺杂原子嵌入模块:掺杂候选的初始猜测以 56 维二进制向量提供,指明当前样本需要考虑哪些掺杂元素。这个二进制向量通过全连接层投影到同样的 128 维潜在空间,得到一个单一的掺杂嵌入向量。这个嵌入向量会作为注意力机制的全局查询,让模型能根据具体的掺杂上下文,调整它对谱特征的解释方式。
多头注意力机制:为了建模掺杂候选与振动特征之间的交互,DefectNet 采用了多头自注意力机制。这里,掺杂嵌入作为查询 Q,而谱特征 V 则充当键和值矩阵,注意力机制遵循标准的缩放点积公式。
掺杂屏蔽模块:模型的输出是 56 个掺杂元素的浓度预测,但通过一个“硬掩码”机制——只有候选元素才能有非零输出,损失函数也只在这些元素上计算。这么做有三个好处:提升训练稳定性、避免无关类别干扰、同时与物理先验保持一致。
输出
最终的输出特征会根据初始缺陷猜测进行硬掩码处理,剔除不在猜测集合里的掺杂元素浓度。换句话说,DefectNet 的预测缺陷浓度被限制在初始假定的缺陷集合内,所以如果初始猜测漏了或不全,模型可能就恢复不出某些掺杂元素。
DefectNet 可解析 6 种共存的取代型缺陷
为了验证 DefectNet 的实际能力,研究人员设计了一系列试验,结果相当亮眼:DefectNet 能够解析多达 6 种共存的取代型缺陷,浓度低至 0.2% 也能搞定,而且不需要详细的原子结构信息,直接处理 PDoS 数据就行。
缺陷种类与浓度预测
研究人员先在模拟 PDoS 上测试了典型的二元半导体(SiC、AlAs)和三元半导体(AgGaS₂、InCuSe₂)。
SiC 和 AlAs 因大带隙而备受重视,分别用于高功率电子器件和异质结构设计。下图展示了完美晶体与掺杂晶体的 PDoS,以及预测与真实的掺杂浓度。即便掺杂水平只有大约 1%,DefectNet 也能捕捉到那些微小的振动变化,靠谱地恢复出正确的掺杂浓度。
上图是 DefectNet 在二元半导体 SiC 和 AlAs 上的代表性预测结果。
接下来,研究人员又把 DefectNet 扔到了化学上更复杂的三元半导体 AgGaS₂ 和 InCuSe₂ 上。AgGaS₂ 用于红外非线性光学,InCuSe₂ 则是薄膜光伏领域的潜力股。这些材料包含多个不等价的原子位点和多样的振动模式,但 DefectNet 仍然能跟踪 PDoS 的变化并推断出掺杂浓度,在复杂结构和化学体系中的稳健性确实让人印象深刻。
上图是 DefectNet 在三元半导体 AgGaS₂ 和 InCuSe₂ 上的预测结果。
为了进一步评估泛化能力,研究人员在包含多种共存掺杂的完整缺陷数据集上测试 DefectNet,这里面还包括输入中有但实际上不存在的“干扰”缺陷。下图通过比较预测缺陷浓度(彩色点)与真实值(黑点),并按照预测均方误差(MSE)的四分位分组,展示了结果:
上图是 DefectNet 在多样材料与缺陷配置上的预测评估。
先说分布内情况(图 a):母体晶体在训练数据中间出现过,但缺陷信息是未知的。结果表明,DefectNet 在广泛的缺陷类型和浓度下都表现出了高保真度,就算输入里有干扰缺陷,模型也能识别出真正的掺杂并剔除干扰。
再看分布外情况(图 b):母体晶体在训练中没出现过,预测准确度虽然略有下降,但 DefectNet 仍然能抓住主要的掺杂特征,而且给大多数干扰缺陷分配了近零浓度,泛化能力确实不错。
在实验数据上微调
为了验证 DefectNet 的实际应用价值,研究人员在真实的实验数据上进行了微调和测试。以热电 SiGe 合金为例,他们构建了一个由 100 个非晶 Si 超胞组成的训练数据集,这些超胞通过 Si-GAP-18 数据库的淬火模拟采样而来,涵盖了从低能接近晶态到高度无序的各种结构状态,具体结果见下图:
上图是 DefectNet 在 SiGe 合金实验验证上的微调结果。
随着无序度增加,PDoS 曲线逐渐展宽,60 meV 处的光学声子特征峰也被抑制了(图 a),这就为模型微调提供了母体材料。然后,研究人员通过在非晶 Si 超胞中随机替换 Ge 来模拟 SiGe 合金,涵盖了从 0% 到 25% 的各种掺杂水平以及不同的无序度。
微调之后,DefectNet 在测试集上的均方根误差(RMSE)达到了 0.019,预测性能相当强悍(图 b)。进一步把这个微调后的模型应用到 Si₁₋ₓGeₓ 合金的实验 GPDoS 数据上(x = 5%、10%、20%,图 c),DefectNet 分别预测出 Ge 浓度为 7%、13% 和 22%,与实验趋势高度吻合(图 d)。考虑到在非晶材料中精确量化缺陷本身固有的难度,这个结果足以说明 DefectNet 对实验数据有很强的预测能力。对于 Al 掺杂的多能带超导体 MgB₂,微调后的 DefectNet 同样能重现掺杂浓度高达 25% 时的实验趋势。
结语:前景广阔,但挑战仍在
必须承认的是,这个模型虽然前景广阔,但在实际应用中仍面临一些挑战。比如在极低缺陷浓度下,振动特征非常微弱,容易被噪声淹没,模型的敏感性会随之下降;目前的版本仅适用于取代型掺杂,要是能扩展到间隙、空位、Frenkel 对或缺陷簇等多种点缺陷类型,应用范围会大幅扩大;另外,尽管模拟数据的泛化性不错,但模型在实验数据上的微调目前还是不可或缺的,要想实现无需再训练就能直接应用于原始实验光谱,依然是个长远目标。
回看这项研究,DefectNet 代表了缺陷科学朝着统一、数据驱动范式迈出的重要一步。它的架构天然兼容多模态光谱输入,也为具有特定缺陷特征的材料逆向设计打开了可能性。通过把物理驱动表示、高通量模拟、可扩展学习和实验微调结合起来,DefectNet 为真实材料中自动化、可解释且非破坏性的缺陷工程,提供了一条清晰的发展路径。
参考文献:
1. https://news.mit.edu/2026/mit-researchers-use-ai-uncover-atomic-defects-materials-0330
2. https://arxiv.org/abs/2506.00725






