AI4S实战派:RXNGraphormer 统一四种预测任务与端到端过渡态生成

2026-06-20阅读 0热度 0
端到端

合成是创造新物质的核心路径——材料、药物、能源等几乎所有创新产物的诞生,都绕不开“合成”这道关卡。

化学反应的底层逻辑,归根结底就是一句话:化学键的断裂与形成。反应物中的旧键断裂,产物中的新键生成——一断一成的瞬间,物质结构被彻底重组。

原理看似直白,但一线合成人员都清楚,有两件事最让人头疼。

第一件:给定一个目标分子,如何设计合成路线?选用什么底物、催化剂、反应条件——这属于逆合成预测。

第二件:给定一套反应条件,产率能到多少?选择性是否理想?——这属于反应性能预测。

传统做法中,这两项任务往往分开处理,依赖不同的方法、数据集甚至不同的研究团队。但上海科学智能研究院的徐丽成老师提出一个核心洞察:它们本质上是同一模型的两个侧面。

这一判断直接催生了两个重磅模型——统一反应预测框架 RXNGraphormer 和端到端过渡态生成模型 UniTS。在最近一期《AI4S 实战派》分享中,徐老师将这两项工作从论文落地到 Notebook,从数据构建、模型设计到性能验证和代码演示,拆解得极为透彻。

01

AI 驱动分子合成的关键里程碑

在介绍自身工作前,徐老师梳理了一条时间线,清晰呈现了 AI 如何逐步渗透分子合成领域。几个关键节点,每个在当年都堪称“首次”:

  • 首次将棋类博弈思路引入化学——Waller团队采用蒙特卡罗树搜索结合神经网络进行逆合成预测,逻辑与 AlphaGo 如出一辙:把“合成一个分子”视作逐步推演的棋局,让模型反向推导每一步操作。
  • 首次实现“一天一千个反应”的实验通量——辉瑞的高通量实验彻底颠覆了传统手工试错模式,催生了一批专注高通量技术的公司和课题组。
  • 首次打通算法与机器的闭环——支持向量机结合自动化设备构建干湿实验闭环:算法推荐反应条件,机器执行实验,结果反馈回算法,循环迭代逼近高活性参数。
  • 首次让论文“自动转化为实验步骤”——通过 NLP 技术,将文献中面向人类的反应操作描述直接翻译成机器可执行的指令,实现“Paper in, Reaction out”。
  • 首次实现机器人连续 8 天自主科研——在贝叶斯优化指导下,移动式机器人连续运行 8 天,完成 600 余个实验,自主优化出性能更优的光催化剂——期间科学家全程未触碰试管。

近期,大语言模型也开始介入,承担文献检索、机理总结、反应条件优化建议等任务。

这条时间线的价值在于,它勾勒出一条清晰轨迹——AI 在分子合成中的角色,正从“计算加速器”逐步演进为“能自主决策的研究主体”。徐老师接下来介绍的两个模型,正是沿着这条轨迹落地的实践。

02

RXNGraphormer:单一模型覆盖四项任务

传统模式是:逆合成用一个模型,产物预测用另一个,产率预测再换一个。徐老师团队的野心直指统一框架——用同一个模型同时完成活性预测、选择性预测、反应物预测和产物预测。

数据:680 万条真实反应 + 1300 万条预训练数据

团队从多个开源渠道收集了超过 680 万条反应记录,但开源数据质量参差不齐。真正的巧思在于预训练策略——采用片段交换算法,将真实反应的产物结构打乱重组,构造出海量不可能发生的“虚拟反应”。

为何刻意制造假反应?因为仅学习真反应,模型记住的只是“哪些反应能发生”;同时学习真假反应,模型才能理解“为什么能发生”。就像鉴别真钞,只看真币不够,必须真假对照才能抓住关键特征。该算法仅改变连接方式,不改变元素组成,既扩充了数据量,又巧妙规避了“假阴性”风险,最终将预训练数据集扩展至 1300 万条。

架构:图神经网络 + Transformer + Delta Link

分子层面采用 GNN 编码原子和化学键,分子间关系通过 Transformer 捕获。最点睛的设计是 Delta Link——既然化学反应本质是“键的断裂与形成”,就让模型在进行性能预测时直接聚焦于这个差异:将反应物与产物的化学键做差值,构建一张“差异图”,清晰标注哪些键断裂、哪些键生成。这相当于不再让模型从一堆原子中自行推测变化,而是直接将“变化区域”圈定并呈现给模型。这一设计显著提升了反应性能预测的精度。

成果表现

在四个代表性数据集上,RXNGraphormer 在活性预测、区域选择性、对映选择性任务中均取得最低 MAE。在 USPTO 衍生数据集的 16 项测评指标中,14 项达到最优。更值得关注的是:模型编码了 5 万条带有 50 种反应类型标签的数据后,同类型反应在模型空间中自然聚类——说明模型切实学到了不同化学反应的成键/断键规律。该成果已作为封面论文发表于去年 9 月的 Nature Machine Intelligence

03

过渡态生成:从“化学家手工搭建”到“AI 端到端生成”

在研发 RXNGraphormer 的过程中,团队一直在思考一个问题:能否将过渡态信息融入模型编码,从而进一步提升预测精度?

然而,回头审视发现一个更基础的问题——过渡态数据本身极度匮乏。

过渡态是化学反应从反应物翻越至产物时,能量达到最高的势能面“鞍点”。一个反应能否发生、反应速率快慢、最终生成哪种产物,很大程度上由这个“山口”的结构决定。它直接关联反应机理,是化学家最想看清却最难捕获的瞬时结构——不可直接观测,过去只能靠化学家凭经验“手工搭建”粗略模型,再通过计算验证。对于复杂体系,这种“手工搭建”过程既缓慢又易出错。

数据集:从 300 篇文献的补充材料中“挖掘”出的过渡态

团队从 300 多篇文献的支撑材料中提取了超过 1 万个过渡态结构,经 DFT 计算后获得约 4300 个高质量结构,涵盖 42 种元素。与市面上另外两个过渡态数据集相比,该数据集的元素复杂度和最大原子数均最高——但数据量最少。复杂且稀疏,这正是问题的核心难点。

模型:2D 图输入 → 高阶等变 GNN → 3D 过渡态输出

模型的目标是端到端生成:输入 2D 分子图和反应位点信息,直接输出 3D 过渡态结构。

关键发现是:常规 3D 结构生成模型(如 EGNN)在处理这种复杂稀疏数据时“力不从心”——生成的结构常出现崩塌。改用高阶等变图神经网络后,效果显著改善。

简而言之,“等变性”要求模型遵守一个基本常识:分子在空间中的旋转和平移不会改变其本质,能量和结构关系必须保持不变。低阶模型对空间关系的感知过于粗糙,数据稀少时难以把握全局;高阶等变能够捕捉更精细的多体几何关系,因此即便只有几千条数据,也能生成结构完整、化学自洽的构型。

需要澄清的是,模型生成的是过渡态初猜,而非最终答案——它的作用是替化学家绘制出最难搭建的“草图”,最终仍交由 DFT 进行优化验证。但这一草图的质量已足够高:在样本外预测中,模型能对从未见过的复杂分子精准生成过渡态,送入 DFT 后能顺利收敛到正确结构。

在机理研究测试中,模型生成的选择性与原始文献报道一致,能在测试的 3+2 环加成反应上产生所有可能的过渡态构型。

徐老师的判断非常务实:“在复杂体系过渡态生成方面,我们已经实现了从 0 到 1 的突破。高阶等变策略是可行的,未来将继续沿此方向发力。”

04

代码演示:三个 Demo,将顶刊论文转化为可执行代码

徐老师现场运行了三个 Demo,将论文中的方法变成了可直接上手的实用工具:

  • 虚拟反应生成——以亚胺加成反应为例,演示片段交换算法如何构造虚构反应。这是理解预训练策略最直观的切入点。
  • 产率预测——加载模型权重和反应 SMILES,在 CPU 上即可直接输出预测产率。仅需两行代码,无任何算力门槛。
  • 过渡态生成——输入 2D 分子的 SMILES 和反应位点,模型从随机噪声出发,经 1000 步去噪逐步形成合理的三维过渡态结构——动态可视化效果清晰,可直观看到化学键在去噪过程中逐帧生成。

相关模型权重和 Notebook 已上传至公开平台,完整权重可通过 figshare 获取,GitHub 仓库包含更多演示案例。

05

Q&A 环节中几个值得记录的关键判断

在交流环节中,有几个问答极具参考价值,值得单独拎出来:

过渡态生成的定位是什么?——不是替代 DFT,而是替代化学家手工搭建初猜的步骤。模型生成初猜,DFT 做最终校验。对于复杂体系,这一步可节省大量时间。

高阶等变为何是关键?——在数据复杂且稀疏的条件下,低阶模型(如 EGNN)生成的结构会碎裂;提升阶数后才能在少量数据上产出合理结构。不排除其他策略,但高阶等变是当前已验证的可行路径。

虚拟反应构造是否会产生假阴性?——片段交换仅改变连接方式,不改变元素组成,能最大程度避免此问题。但预训练过程中确实难以完全排除假阴性,这也是当前方法的局限之一。

催化反应大模型离通用化还有多远?——徐老师坦诚回应:“不确定。” 当前核心瓶颈是每切换一个任务就需要重新训练,尚缺乏真正的通用模型。但方向是明确的——先做大数据、做干净数据,再推动模型的通用化。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策