视觉Transformer多模态核磁共振谱图端到端分子结构解析

2026-06-15阅读 0热度 0

核磁共振

核磁共振波谱法在分子结构鉴定中占据核心地位，但解读复杂谱图始终是资深专家的“看家活”。一堆化学位移峰、几组耦合常数，外行看得一头雾水，内行也得反复比对多个谱学参数，才能逐步锁定可能的分子骨架。近年来深度学习确实让“看谱图猜结构”有了自动化苗头，但多数方法依然先要把谱图转成峰表、耦合模式这类文本化数据，再喂给模型。这样一来，原始谱图中微妙的强度分布、细微的峰形特征就被彻底丢弃了。更棘手的是，这类策略很难自然扩展到二维NMR实验——而二维谱恰恰是解决结构歧义的关键武器。

好消息是，一项最新研究为这个难题提供了全新解法。研究者提出的NMRViT框架，直接以原始的核磁谱图图像作为输入，一口气处理一维¹H谱、一维¹³C谱和二维HSQC谱，实现了从“谱图”到“结构”的端到端预测。模型在大规模模拟数据上训练完成，无论单谱还是多谱联合，表现都相当出色。更值得关注的是，研究团队没有回避实际部署中的拦路虎——他们系统评估了模型从模拟谱图迁移到真实实验谱图时面临的“领域漂移”问题，并通过少量实验数据微调、结合化学位移重排序的策略，大幅提升了模型处理真实数据的能力。简而言之，这项工作证明了视觉Transformer完全可以直接从原始NMR图像中“读”出结构信息，为自动化分子结构解析开辟了一条极具实用价值的路径。

核磁共振谱学在天然产物鉴定、新药研发、有机合成和代谢组学领域都是绝对的主角。理论上，一张完整的NMR谱图包含了官能团组成、原子连接方式、局部化学环境等全部信息。但理想丰满，现实骨感——要从谱图倒推出完整结构，依然靠经验丰富的研究者通盘分析多个实验结果。

过去的算法大多走“候选库匹配”路线：先枚举一堆可能的分子结构，再用量子化学计算或机器学习模型预测它们的谱图，与实验数据比对后挑出最像的那个。这招虽然有效，但天花板明显——你永远只能在候选库里选，根本无法发现完全未知的新结构。

这两年Transformer和大语言模型火了，端到端谱图解析技术也跟着受益。研究者开始尝试用神经网络直接把NMR谱图“翻译”成SMILES结构式。不过，大部分方法还是走老路——先把谱图转成峰列表、峰型这类文本符号，再丢给Transformer处理。这样做计算压力是下来了，但原始谱图中强度分布的细节、噪声模式也就此抹掉了。

同时，二维HSQC谱能直接告诉你哪个氢原子连着哪个碳原子，这对消除结构歧义至关重要。但如何把一维谱和二维谱统一融入一个深度学习框架，一直是块硬骨头。而且，模型在模拟数据上学得再好，一碰到真实实验数据就容易“水土不服”——模拟与实验之间的鸿沟，是拦在实用化道路上的最大一堵墙。

正是为了砸碎这堵墙，研究者推出了NMRViT框架。这个视觉Transformer不走寻常路，直接拿原始谱图当输入，试图把多模态谱图信息在同一深度学习框架里融会贯通，真正实现端到端结构解析。

方法

NMRViT将分子结构解析视为一个序列生成任务。它首先获取原始的¹H谱、¹³C谱和二维HSQC谱图像，然后将每张谱图分割成小块图像（Patch）。这些图像块经过嵌入后送入Vision Transformer编码器。编码器内的自注意力机制特别擅长学习不同化学位移区域之间的长程依赖关系。随后，一个自回归的Transformer解码器根据编码器提取的谱图特征，一个原子接一个原子地“写出”SMILES结构序列。

为了提升预测准确度，研究者还将分子式作为额外提示信息喂给解码器——相当于给了模型一张“元素清单”，约束生成的分子不能超出这个组成范围。同时，模型里还加入了名为Patch Dropout的随机丢弃策略，训练时随机扔掉一些谱图片区。NMR谱图天然稀疏，大部分区域都没有信号，这个操作迫使模型去关注不同区域的信息组合，对弱峰和缺峰的鲁棒性显著增强。对于多模态输入，不同谱图先各自编码，然后在统一空间中进行特征融合，让¹H、¹³C和HSQC的信息发挥协同效应。最后，模型还会调用一个外部的化学位移预测网络，对生成的多个候选结构进行重排序，选出最可靠的一个作为最终答案。

图1: 模拟数据集与实验数据集分子规模分布统计。

图2: NMRViT总体框架。

结果

在大规模模拟数据集上实现高精度结构解析

研究者先用一个包含约79万个有机分子的模拟多模态谱图数据库给模型做了“摸底考试”。结果很直观：无论哪种谱图输入模式，NMRViT的性能都达到甚至超越了当前最佳方法。

单看¹H谱，模型Top-1结构预测准确率可以达到71.39%，大幅甩开了基于峰列表编码的老方法。核心原因在于，模型直接利用了原始谱图中的强度分布信息，而这些细节在传统峰提取操作中往往被当作无用噪音直接抛弃。

轮到二维HSQC谱，模型也拿下了67.97%的Top-1准确率。这算是少数几个系统评估直接从二维NMR谱图推测结构的研究之一，证明Vision Transformer确实有能力从二维谱中“看出”结构关联信息。

当把¹H、¹³C和HSQC三种谱图整合在一起时，模型表现更上一层楼，Top-1准确率飙升至79.12%，Top-10准确率超过91%。这充分说明，多模态融合策略能把不同谱学实验的互补信息用到极致。

分子式提示和Patch Dropout显著增强模型性能

为搞清楚模型里哪些组件最有效，研究者做了一整套消融实验。

结果发现，一旦移除分子式提示，无论用哪种谱图输入，预测准确率都明显下降。分子式就像给结构生成过程画了一个圈，提供了全局的元素组成约束，帮助模型收缩搜索空间，避免它猜出元素组成完全不对的候选结构。

同样，如果关闭Patch Dropout，模型性能也会掉一截。前面提到，NMR谱图天然稀疏，大部分区域是信号“真空区”。这个策略迫使模型关注不同区域的信号组合，使其对弱信号和偶然缺失的信号更不敏感。

实验数据清楚表明，这两个机制是NMRViT性能飞跃的两大功臣。

图3： Patch Dropout与分子式提示的消融实验结果。

模拟谱图与真实实验谱图之间存在明显领域差距

接下来，研究者把训练好的模型“裸奔”到真实实验NMR数据集上，不做任何额外训练，直接测试。

结果很残酷：模型在实验数据上的表现与模拟数据相比天差地别。以单¹H谱为例，Top-1准确率从模拟测试集的71.39%暴跌至19.91%。即便训练集里已经见过的分子，只要谱图来自真实实验，预测准确率照样大幅下滑。

进一步分析发现，拖后腿的元凶并非分子结构复杂度，而是模拟谱图与实验谱图之间的信号分布差距太大——基线漂移、噪声模式、仪器条件差异，随便一个都是拦路虎。

这个结果指向了当前谱图生成模型面临的核心挑战：如何跨越模拟数据与真实实验数据之间的那道“天堑”。

少量实验样本微调即可显著恢复预测能力

为了填平这道天堑，研究者只用了大约100个实验样本对模型做了一点微调。

效果立竿见影：所有谱图模式的性能都获得了显著提升。特别是当联合使用¹H和¹³C谱时，Top-1准确率一跃提升到66.15%，已经非常接近它在模拟数据上的巅峰状态。

最让人惊喜的是，只需这么一丁点实验样本，就能换来如此巨大的性能修复。这说明NMRViT在大规模模拟数据上学到的结构知识具有极强的可迁移性，微调本质上只是帮模型“适应”一下真实仪器的谱图特征。

这个发现对未来构建自动化NMR解析系统意义非凡——实验标注数据向来是“稀罕物”，动辄千金难求。

图4：零样本迁移与实验微调性能比较。

化学位移重排序进一步提高候选结构筛选能力

研究者还设计了一个基于化学位移预测的重排序策略，对Transformer生成的候选结构再来一轮“优中选优”。

实验结果表明，在零样本迁移场景下，这个重排序操作能持续提升Top-1和Top-5准确率。特别有意思的是，如果只看¹³C谱，加上重排序之后的结果甚至超过了未做重排序的微调模型。

一些案例分析揭示了其中奥秘：模型最初的预测往往只是在官能团位置、芳环取代方式等局部细节上出错，而重排序能利用化学位移信息把这些细微差别揪出来，将正确结构“提拔”到更靠前的位置。

即便最终没能翻出完全正确的结构，经过重排序的候选结构通常也更接近真实分子的骨架，这让最终结果的化学合理性和可解释性都得到了改善。

图5: 化学位移重排序前后结构预测结果比较。

二维HSQC谱图实现复杂代谢物结构预测

研究者还用了HMDB-HSQC这个实验数据集，专门考验了一下模型处理二维谱图的能力。

在零样本条件下，模型对重叠分子的Top-1准确率达到32.0%。虽然跟模拟数据上67.97%的成绩比差了不少，但考虑到这是跨领域应用，已经算得上不错的迁移能力。再用少量实验数据微调一下，模型对未见过分子的Top-1准确率直接从16.7%蹿升到45.8%。

从展示的预测案例来看，无论是芳香体系、长链脂肪结构，还是复杂的多环骨架，NMRViT都表现得游刃有余。这说明它不只能处理简单小分子，面对结构更复杂的代谢物同样是一把好手。

研究者认为，这个框架未来的想象空间很大，有望进一步扩展到COSY、HMBC等更多二维NMR实验，最终实现真正意义上的多维谱图“一键解析”。

图6: HMDB-HSQC数据集上的结构预测结果与典型案例。

讨论

总的来说，这项研究提出的NMRViT框架，搭建了一个基于Vision Transformer的端到端分子结构解析系统，实现了从原始NMR谱图直接跳到分子结构的自动化预测。与传统先提峰再编码的做法相比，NMRViT直接利用了完完整整的谱图信息，最大程度保留了谱学信号中的细粒度特征。

结果很明确：多模态谱图融合能显著提升结构解析能力，而二维HSQC谱则是解决结构歧义时的一把“神兵利器”。当然，研究也揭示了模拟谱图与实验谱图之间那道明显的领域鸿沟，不过通过少量实验数据进行微调，再配合化学位移重排序，这两步操作足以有效弥补这个缺陷。

未来的路还很长——比如如何让模型对真实谱图的噪声和仪器差异更鲁棒？如何构建更大规模的实验谱图库？以及如何把模型扩展到COSY、HMBC这类二维谱学实验？随着自动化实验平台和AI实验室的不断进化，NMRViT这类模型极有潜力成为闭环机器人化学平台里的核心分析模块，最终实现从“合成”到“表征”再到“结构解析”的全自动化流程。

参考资料

Han, C.; Pan, X.; Zhang, Y. End-to-end molecular structure elucidation from multimodal NMR spectra images using vision transformers. Chem. Sci. 2026. https://doi.org/10.1039/d6sc02352e