AQuaRef:AI驱动量子力学精修蛋白质全原子模型
理解生物大分子的三维结构是解析生命过程的第一步。获取原子级分辨率的结构信息,是结构生物学的核心任务,也是阐明蛋白质功能机制、遗传调控原理以及开展靶向药物设计的基石。无论是酶的催化循环、核酸的遗传信息传递,还是抗体对抗原的特异性识别,这些关键生命活动都依赖精确的结构模型作为解释依据。
目前,冷冻电镜(Cryo-EM)与X射线晶体学是解析生物大分子结构的两大主流实验技术,已积累了海量的高分辨率结构数据。近年来,AlphaFold和RoseTTAFold等计算预测方法取得了突破性进展,为结构建模提供了高效工具。不过,在发现全新的结构类型、解析复杂的分子间相互作用等方面,实验解析的不可替代性依然存在。在整个实验结构解析流程中,原子模型精修是逼近终点的关键环节,其目标是构建一个既符合立体化学规则,又能最大程度拟合实验数据的分子模型。当前主流的精修软件,如CCP4和Phenix,主要依赖标准数据库中的立体化学约束来维持合理的键长、键角,并减小原子间的空间冲突。
然而,这类约束体系的局限性日趋明显。它们主要针对共价结构,对氢键、π-π堆积等关键的非共价相互作用缺乏系统性描述。在低分辨率条件下,这可能导致模型偏离真实的化学状态;若结构中存在新型配体或特殊连接方式,还需手动定义参数才能完成精修。此外,局部化学环境引发的合理几何偏差,也可能被约束体系误判为异常并强行修正。从理论上看,量子力学方法能更精准地描述分子间的相互作用,但生物大分子通常包含数千甚至上万个原子,全量子计算的成本极高,因此现有研究多局限于配体结合位点等局部区域。
为攻克这一难题,由卡内基梅隆大学、波兰弗罗茨瓦夫大学、佛罗里达大学等高校组成的联合研究团队,开发了一款人工智能驱动的量子精修方法——AQuaRef。该方法基于AIMNet2机器学习原子势函数,并针对精修任务进行了定制训练。在接近经典力场计算效率的同时,能较好地逼近量子力学的计算结果,为生物大分子的全原子量子精修开辟了全新路径。
相关研究成果以「AQuaRef: machine learning accelerated quantum refinement of protein structures」为题,发表于《自然·通讯》(Nature Communications)上。
研究亮点:
- AQuaRef基于AIMNet2机器学习势函数,首次实现了全蛋白质原子模型的量子精修
- 在61个低分辨率X射线和冷冻电镜模型的测试中,AQuaRef在57个模型里表现更优
- 在DJ-1和YajL蛋白的短氢键案例中,AQuaRef无需人工干预,即可确定与实验证据一致的质子位置
面向多肽机器学习势函数训练的100万样本数据集
本研究旨在为多肽体系构建机器学习势函数的参数化模型,因此,数据集设计需系统性覆盖化学组成、构象空间以及分子间相互作用三个维度。
在化学维度上,研究团队以SMILES字符串形式构建了多肽数据库,涵盖20种标准氨基酸、11种质子化状态、3种N端修饰和4种C端修饰。在此基础上,枚举了所有单肽和二肽,并随机选取部分三肽和四肽,同时额外生成了含有二硫键连接的多肽及其硒代类似物。为充分覆盖构象空间,研究人员利用OpenEye Omega软件进行了密集的扭转角采样,且未对手性中心施加限制,使模型能适用于D型、L型以及混合立体化学的多肽体系。
同时,还构建了由2到4个肽段组成的复合物,并随机调整其空间取向,以模拟分子间的相互作用。整个数据生成过程未参考任何天然序列或实验结构,以避免潜在的数据泄露。为控制计算规模,所有肽段及其复合物的原子总数(含氢)均限制在120以内。
获取初始构象后,研究人员首先使用GFN-FF力场开展分子动力学模拟,以采样非平衡结构。通过笛卡尔坐标约束,保持整体构型接近初始输入,同时释放扭转角和分子间的自由度。
随后引入query-by-committee的主动学习策略:先随机选取50万初始样本,训练一个由4个模型组成的集成体系;然后进行四轮迭代,每轮根据模型对能量和原子力预测的不确定性筛选样本,并对这些高不确定性结构进行DFT计算后加入训练集。最后一轮进一步引入不确定性引导优化,优先选择那些预测不确定性较高但能量较低的边界结构。通过此流程,最终获得一个约含100万条样本的训练集,平均原子数约为42。
除理论生成的数据外,研究人员还从RCSB和EMDB数据库中筛选了实验结构用于模型验证。筛选标准包括:仅包含蛋白质的单构象模型、非氢原子数在1000到10000之间、分辨率在2.5到4 Å之间、MolProbity冲突评分小于50,以及键长和键角偏差不超过标准值的4倍。
AQuaRef:面向大分子体系的AI驱动量子精修方法
AQuaRef首先对输入的原子模型进行完整性检查。对于结构中缺失的原子,程序会尝试自动补充。但此过程有时会引入新的空间位阻冲突,尤其是在原模型未包含氢原子的情况下。若缺失的是主链原子等关键结构,模型则无法继续进行量子精修;若检测到明显的空间冲突或严重的几何异常,则会先用标准立体化学约束进行快速几何正则化,在尽量少调整原子位置的前提下消除问题。
对于晶体学数据,精修还需考虑晶胞对称性以及周期性相互作用。具体而言,程序会根据空间群对称算子,将模型扩展成超胞,然后进行截断,仅保留那些与主拷贝原子距离在设定范围内的对称拷贝。在冷冻电镜结构中,此处理通常无需进行。
完成原子补充和模型扩展后,体系便进入Q|R软件包的标准精修流程。AQuaRef的核心架构与基础AIMNet2模型基本一致,但针对结构精修任务做了几项关键调整。
首先,模型未显式计算长程库仑和色散相互作用,而是直接训练去复现DFT-D4总能量。这是因为在CPCM隐式溶剂模型下,库仑相互作用很难通过部分原子电荷准确估计,同时长程相互作用已被可极化连续介质显著屏蔽;此外,超过5 Å截断半径的长程色散项,对精修过程中关键的原子力贡献极小,可忽略而不影响精度。
其次,模型引入了GFN1-XTB中的显式短程指数排斥项,使其在处理存在空间位阻冲突的结构时,稳定性更佳。模型的训练以B97M-D4/def2-QZVP方法计算得到的能量、原子力以及赫希菲尔德部分原子电荷为目标。从随机权重初始化开始训练,批次大小为256,总训练步数为150万步,其余超参数均沿用原始AIMNet2的设置。
在计算效率方面,AIMNet2框架中能量和原子力的计算时间以及GPU峰值显存占用,均与体系原子数呈线性(O(N))增长。对于包含约10万个原子的蛋白质体系,单点能量和力计算仅需约0.5秒;在单块配备80GB显存的NVIDIA H100 GPU上,最多可处理约18万个原子的模型。
41个冷冻电镜与20个X射线模型验证,AQuaRef局部结构优化达2 Å
为评估AQuaRef的性能,研究人员构建了一个包含41个冷冻电镜模型、20个低分辨率以及10个超高分辨率X射线模型的测试集。其中,61个低分辨率模型均配有对应的高分辨率同源参考结构。精修过程中设置了三种约束条件进行对比:AIMNet2量子约束(即AQuaRef)、标准几何约束,以及在标准约束基础上额外加入氢键和二级结构等限制条件。
结果显示,量子精修后的低分辨率模型,在MolProbity score和Ramachandran plot Z-score等几何指标上,均显著优于传统约束方法。同时,模型与实验数据的拟合程度基本保持一致。对于X射线结构,过拟合程度略有降低(Rwork与Rfree的差值更小);对于冷冻电镜结构,CCmask略有下降而EMRinger评分基本不变。结合几何质量的整体提升,此结果提示模型过拟合可能有所减少。
尽管在标准约束中加入额外几何限制也能改善模型质量,但AQuaRef仍能获得更合理的几何结构,并且与高分辨率参考模型更加接近。在部分案例中,标准约束与量子精修所得结构的局部差异可达2 Å。
41个冷冻电子显微镜模型和20个X射线模型的优化结果
研究还将AQuaRef与多种主流精修方法进行了比较。针对X射线数据,比较了AMBER、Rosetta和REFMAC5;对冷冻电镜数据则使用了Servalcat。总体来看,AQuaRef的Rfree略优,且过拟合程度最低。与Servalcat相比,两者的EMRinger评分相当,但Servalcat的CCmask略高。
在几何质量方面,AQuaRef与Rosetta表现接近,明显优于REFMAC5和Servalcat;Rosetta与参考模型的整体契合度略高,这可能与其非梯度优化策略带来的更大收敛半径有关。此外,AQuaRef与Rosetta均能生成合理的氢键几何结构,AMBER次之,而REFMAC5和Servalcat基本无法准确恢复这些细节。
对61个低分辨率模型的优化结果
在短氢键体系的测试中,研究人员以帕金森病相关蛋白DJ-1及其同源蛋白YajL为例,检验了AQuaRef对质子化状态的处理能力。传统精修方法受数据库立体化学约束影响,往往会使键长偏离真实值。以对称双质子化结构作为初始模型进行AQuaRef精修时,得到的质子位置和键几何与无约束精修结果一致;而加入传统约束后,键长则会被拉向数据库中的非质子化标准值。当实验数据被截断至2 Å分辨率、原子细节明显减少时,AQuaRef仍能恢复与原始1.15 Å数据几乎一致的结构,而传统约束精修则进一步偏离真实构型。AQuaRef将质子定位于DJ-1中D24残基的Oδ2原子,此结果同时得到了能量计算和差值电子密度图的支持。
野生型DJ-1中的键距分析
在YajL蛋白中,两处E14/D23短氢键的AQuaRef精修结果同样与无约束精修一致,表明质子由D23与E14共同共享,呈现典型的低势垒氢键特征。这与DJ-1中质子主要定位于单个氧原子的情形不同。AIMNet2给出的能量分布呈现较为平坦的势能面,意味着质子位置可在实验数据的约束下自由调整。同时,差值电子密度图在氢原子附近均出现了显著高于3σ的峰值,为这一结构解释提供了进一步证据。
氢键沿线的能量分布图
蛋白质量子精修领域的产学研突破
在蛋白质量子精修、机器学习势函数构建以及原子模型优化这一前沿领域,多支研究团队持续探索,并取得了一系列进展。例如,牛津大学团队开发的神经网络方法nn-tmfcc,能够以接近全量子力学精度构建高精度残基片段势能面模型,其能量和原子力的均方根误差分别控制在1.0 kcal/mol和1.3 kcal/(mol·Å)以内。借助该方法,完成15种代表性蛋白质的能量与原子力计算仅需10到100秒,相比传统量子力学计算提速上千倍。
另一支德国合作团队则提出了BF-DCQO量子算法,通过非变分迭代策略,并结合IonQ离子阱量子计算系统,将包含12个氨基酸的三维折叠问题计算时间,从传统GPU集群的72小时压缩到了约4.3分钟,速度提升同样达到千倍量级。
总体来看,量子力学方法、机器学习势函数与实验结构数据的结合,正在为生物大分子结构精修提供一条新的技术路径,有望在低分辨率结构建模、配体结合模式分析以及功能位点研究等场景中,发挥更稳定的作用。





