AQuaRef：AI驱动量子力学精修蛋白质全原子模型

2026-06-11阅读 0热度 0

理解生物大分子的三维结构是解析生命过程的第一步。获取原子级分辨率的结构信息，是结构生物学的核心任务，也是阐明蛋白质功能机制、遗传调控原理以及开展靶向药物设计的基石。无论是酶的催化循环、核酸的遗传信息传递，还是抗体对抗原的特异性识别，这些关键生命活动都依赖精确的结构模型作为解释依据。

目前，冷冻电镜（Cryo-EM）与X射线晶体学是解析生物大分子结构的两大主流实验技术，已积累了海量的高分辨率结构数据。近年来，AlphaFold和RoseTTAFold等计算预测方法取得了突破性进展，为结构建模提供了高效工具。不过，在发现全新的结构类型、解析复杂的分子间相互作用等方面，实验解析的不可替代性依然存在。在整个实验结构解析流程中，原子模型精修是逼近终点的关键环节，其目标是构建一个既符合立体化学规则，又能最大程度拟合实验数据的分子模型。当前主流的精修软件，如CCP4和Phenix，主要依赖标准数据库中的立体化学约束来维持合理的键长、键角，并减小原子间的空间冲突。

然而，这类约束体系的局限性日趋明显。它们主要针对共价结构，对氢键、π-π堆积等关键的非共价相互作用缺乏系统性描述。在低分辨率条件下，这可能导致模型偏离真实的化学状态；若结构中存在新型配体或特殊连接方式，还需手动定义参数才能完成精修。此外，局部化学环境引发的合理几何偏差，也可能被约束体系误判为异常并强行修正。从理论上看，量子力学方法能更精准地描述分子间的相互作用，但生物大分子通常包含数千甚至上万个原子，全量子计算的成本极高，因此现有研究多局限于配体结合位点等局部区域。

为攻克这一难题，由卡内基梅隆大学、波兰弗罗茨瓦夫大学、佛罗里达大学等高校组成的联合研究团队，开发了一款人工智能驱动的量子精修方法——AQuaRef。该方法基于AIMNet2机器学习原子势函数，并针对精修任务进行了定制训练。在接近经典力场计算效率的同时，能较好地逼近量子力学的计算结果，为生物大分子的全原子量子精修开辟了全新路径。

相关研究成果以「AQuaRef: machine learning accelerated quantum refinement of protein structures」为题，发表于《自然·通讯》（Nature Communications）上。

研究亮点：

AQuaRef基于AIMNet2机器学习势函数，首次实现了全蛋白质原子模型的量子精修
在61个低分辨率X射线和冷冻电镜模型的测试中，AQuaRef在57个模型里表现更优
在DJ-1和YajL蛋白的短氢键案例中，AQuaRef无需人工干预，即可确定与实验证据一致的质子位置

面向多肽机器学习势函数训练的100万样本数据集

本研究旨在为多肽体系构建机器学习势函数的参数化模型，因此，数据集设计需系统性覆盖化学组成、构象空间以及分子间相互作用三个维度。

在化学维度上，研究团队以SMILES字符串形式构建了多肽数据库，涵盖20种标准氨基酸、11种质子化状态、3种N端修饰和4种C端修饰。在此基础上，枚举了所有单肽和二肽，并随机选取部分三肽和四肽，同时额外生成了含有二硫键连接的多肽及其硒代类似物。为充分覆盖构象空间，研究人员利用OpenEye Omega软件进行了密集的扭转角采样，且未对手性中心施加限制，使模型能适用于D型、L型以及混合立体化学的多肽体系。

同时，还构建了由2到4个肽段组成的复合物，并随机调整其空间取向，以模拟分子间的相互作用。整个数据生成过程未参考任何天然序列或实验结构，以避免潜在的数据泄露。为控制计算规模，所有肽段及其复合物的原子总数（含氢）均限制在120以内。

获取初始构象后，研究人员首先使用GFN-FF力场开展分子动力学模拟，以采样非平衡结构。通过笛卡尔坐标约束，保持整体构型接近初始输入，同时释放扭转角和分子间的自由度。

随后引入query-by-committee的主动学习策略：先随机选取50万初始样本，训练一个由4个模型组成的集成体系；然后进行四轮迭代，每轮根据模型对能量和原子力预测的不确定性筛选样本，并对这些高不确定性结构进行DFT计算后加入训练集。最后一轮进一步引入不确定性引导优化，优先选择那些预测不确定性较高但能量较低的边界结构。通过此流程，最终获得一个约含100万条样本的训练集，平均原子数约为42。

除理论生成的数据外，研究人员还从RCSB和EMDB数据库中筛选了实验结构用于模型验证。筛选标准包括：仅包含蛋白质的单构象模型、非氢原子数在1000到10000之间、分辨率在2.5到4 Å之间、MolProbity冲突评分小于50，以及键长和键角偏差不超过标准值的4倍。

AQuaRef：面向大分子体系的AI驱动量子精修方法

AQuaRef首先对输入的原子模型进行完整性检查。对于结构中缺失的原子，程序会尝试自动补充。但此过程有时会引入新的空间位阻冲突，尤其是在原模型未包含氢原子的情况下。若缺失的是主链原子等关键结构，模型则无法继续进行量子精修；若检测到明显的空间冲突或严重的几何异常，则会先用标准立体化学约束进行快速几何正则化，在尽量少调整原子位置的前提下消除问题。

对于晶体学数据，精修还需考虑晶胞对称性以及周期性相互作用。具体而言，程序会根据空间群对称算子，将模型扩展成超胞，然后进行截断，仅保留那些与主拷贝原子距离在设定范围内的对称拷贝。在冷冻电镜结构中，此处理通常无需进行。

完成原子补充和模型扩展后，体系便进入Q|R软件包的标准精修流程。AQuaRef的核心架构与基础AIMNet2模型基本一致，但针对结构精修任务做了几项关键调整。

首先，模型未显式计算长程库仑和色散相互作用，而是直接训练去复现DFT-D4总能量。这是因为在CPCM隐式溶剂模型下，库仑相互作用很难通过部分原子电荷准确估计，同时长程相互作用已被可极化连续介质显著屏蔽；此外，超过5 Å截断半径的长程色散项，对精修过程中关键的原子力贡献极小，可忽略而不影响精度。

其次，模型引入了GFN1-XTB中的显式短程指数排斥项，使其在处理存在空间位阻冲突的结构时，稳定性更佳。模型的训练以B97M-D4/def2-QZVP方法计算得到的能量、原子力以及赫希菲尔德部分原子电荷为目标。从随机权重初始化开始训练，批次大小为256，总训练步数为150万步，其余超参数均沿用原始AIMNet2的设置。

在计算效率方面，AIMNet2框架中能量和原子力的计算时间以及GPU峰值显存占用，均与体系原子数呈线性（O(N)）增长。对于包含约10万个原子的蛋白质体系，单点能量和力计算仅需约0.5秒；在单块配备80GB显存的NVIDIA H100 GPU上，最多可处理约18万个原子的模型。

41个冷冻电镜与20个X射线模型验证，AQuaRef局部结构优化达2 Å

为评估AQuaRef的性能，研究人员构建了一个包含41个冷冻电镜模型、20个低分辨率以及10个超高分辨率X射线模型的测试集。其中，61个低分辨率模型均配有对应的高分辨率同源参考结构。精修过程中设置了三种约束条件进行对比：AIMNet2量子约束（即AQuaRef）、标准几何约束，以及在标准约束基础上额外加入氢键和二级结构等限制条件。

结果显示，量子精修后的低分辨率模型，在MolProbity score和Ramachandran plot Z-score等几何指标上，均显著优于传统约束方法。同时，模型与实验数据的拟合程度基本保持一致。对于X射线结构，过拟合程度略有降低（Rwork与Rfree的差值更小）；对于冷冻电镜结构，CCmask略有下降而EMRinger评分基本不变。结合几何质量的整体提升，此结果提示模型过拟合可能有所减少。

尽管在标准约束中加入额外几何限制也能改善模型质量，但AQuaRef仍能获得更合理的几何结构，并且与高分辨率参考模型更加接近。在部分案例中，标准约束与量子精修所得结构的局部差异可达2 Å。

41个冷冻电子显微镜模型和20个X射线模型的优化结果

研究还将AQuaRef与多种主流精修方法进行了比较。针对X射线数据，比较了AMBER、Rosetta和REFMAC5；对冷冻电镜数据则使用了Servalcat。总体来看，AQuaRef的Rfree略优，且过拟合程度最低。与Servalcat相比，两者的EMRinger评分相当，但Servalcat的CCmask略高。

在几何质量方面，AQuaRef与Rosetta表现接近，明显优于REFMAC5和Servalcat；Rosetta与参考模型的整体契合度略高，这可能与其非梯度优化策略带来的更大收敛半径有关。此外，AQuaRef与Rosetta均能生成合理的氢键几何结构，AMBER次之，而REFMAC5和Servalcat基本无法准确恢复这些细节。

对61个低分辨率模型的优化结果

在短氢键体系的测试中，研究人员以帕金森病相关蛋白DJ-1及其同源蛋白YajL为例，检验了AQuaRef对质子化状态的处理能力。传统精修方法受数据库立体化学约束影响，往往会使键长偏离真实值。以对称双质子化结构作为初始模型进行AQuaRef精修时，得到的质子位置和键几何与无约束精修结果一致；而加入传统约束后，键长则会被拉向数据库中的非质子化标准值。当实验数据被截断至2 Å分辨率、原子细节明显减少时，AQuaRef仍能恢复与原始1.15 Å数据几乎一致的结构，而传统约束精修则进一步偏离真实构型。AQuaRef将质子定位于DJ-1中D24残基的Oδ2原子，此结果同时得到了能量计算和差值电子密度图的支持。

野生型DJ-1中的键距分析

在YajL蛋白中，两处E14/D23短氢键的AQuaRef精修结果同样与无约束精修一致，表明质子由D23与E14共同共享，呈现典型的低势垒氢键特征。这与DJ-1中质子主要定位于单个氧原子的情形不同。AIMNet2给出的能量分布呈现较为平坦的势能面，意味着质子位置可在实验数据的约束下自由调整。同时，差值电子密度图在氢原子附近均出现了显著高于3σ的峰值，为这一结构解释提供了进一步证据。

氢键沿线的能量分布图

蛋白质量子精修领域的产学研突破

在蛋白质量子精修、机器学习势函数构建以及原子模型优化这一前沿领域，多支研究团队持续探索，并取得了一系列进展。例如，牛津大学团队开发的神经网络方法nn-tmfcc，能够以接近全量子力学精度构建高精度残基片段势能面模型，其能量和原子力的均方根误差分别控制在1.0 kcal/mol和1.3 kcal/(mol·Å)以内。借助该方法，完成15种代表性蛋白质的能量与原子力计算仅需10到100秒，相比传统量子力学计算提速上千倍。

另一支德国合作团队则提出了BF-DCQO量子算法，通过非变分迭代策略，并结合IonQ离子阱量子计算系统，将包含12个氨基酸的三维折叠问题计算时间，从传统GPU集群的72小时压缩到了约4.3分钟，速度提升同样达到千倍量级。

总体来看，量子力学方法、机器学习势函数与实验结构数据的结合，正在为生物大分子结构精修提供一条新的技术路径，有望在低分辨率结构建模、配体结合模式分析以及功能位点研究等场景中，发挥更稳定的作用。

AQuaRef：AI驱动量子力学精修蛋白质全原子模型

面向多肽机器学习势函数训练的100万样本数据集

AQuaRef：面向大分子体系的AI驱动量子精修方法

41个冷冻电镜与20个X射线模型验证，AQuaRef局部结构优化达2 Å

蛋白质量子精修领域的产学研突破

相关阅读

最新教程

最新资讯