AI4S实战派：RXNGraphormer 统一四种预测任务与端到端过渡态生成

2026-06-20阅读 0热度 0

端到端

合成是创造新物质的核心路径——材料、药物、能源等几乎所有创新产物的诞生，都绕不开“合成”这道关卡。

化学反应的底层逻辑，归根结底就是一句话：化学键的断裂与形成。反应物中的旧键断裂，产物中的新键生成——一断一成的瞬间，物质结构被彻底重组。

原理看似直白，但一线合成人员都清楚，有两件事最让人头疼。

第一件：给定一个目标分子，如何设计合成路线？选用什么底物、催化剂、反应条件——这属于逆合成预测。

第二件：给定一套反应条件，产率能到多少？选择性是否理想？——这属于反应性能预测。

传统做法中，这两项任务往往分开处理，依赖不同的方法、数据集甚至不同的研究团队。但上海科学智能研究院的徐丽成老师提出一个核心洞察：它们本质上是同一模型的两个侧面。

这一判断直接催生了两个重磅模型——统一反应预测框架 RXNGraphormer 和端到端过渡态生成模型 UniTS。在最近一期《AI4S 实战派》分享中，徐老师将这两项工作从论文落地到 Notebook，从数据构建、模型设计到性能验证和代码演示，拆解得极为透彻。

01 AI 驱动分子合成的关键里程碑

在介绍自身工作前，徐老师梳理了一条时间线，清晰呈现了 AI 如何逐步渗透分子合成领域。几个关键节点，每个在当年都堪称“首次”：

首次将棋类博弈思路引入化学——Waller团队采用蒙特卡罗树搜索结合神经网络进行逆合成预测，逻辑与 AlphaGo 如出一辙：把“合成一个分子”视作逐步推演的棋局，让模型反向推导每一步操作。
首次实现“一天一千个反应”的实验通量——辉瑞的高通量实验彻底颠覆了传统手工试错模式，催生了一批专注高通量技术的公司和课题组。
首次打通算法与机器的闭环——支持向量机结合自动化设备构建干湿实验闭环：算法推荐反应条件，机器执行实验，结果反馈回算法，循环迭代逼近高活性参数。
首次让论文“自动转化为实验步骤”——通过 NLP 技术，将文献中面向人类的反应操作描述直接翻译成机器可执行的指令，实现“Paper in, Reaction out”。
首次实现机器人连续 8 天自主科研——在贝叶斯优化指导下，移动式机器人连续运行 8 天，完成 600 余个实验，自主优化出性能更优的光催化剂——期间科学家全程未触碰试管。

近期，大语言模型也开始介入，承担文献检索、机理总结、反应条件优化建议等任务。

这条时间线的价值在于，它勾勒出一条清晰轨迹——AI 在分子合成中的角色，正从“计算加速器”逐步演进为“能自主决策的研究主体”。徐老师接下来介绍的两个模型，正是沿着这条轨迹落地的实践。

02 RXNGraphormer：单一模型覆盖四项任务

传统模式是：逆合成用一个模型，产物预测用另一个，产率预测再换一个。徐老师团队的野心直指统一框架——用同一个模型同时完成活性预测、选择性预测、反应物预测和产物预测。

数据：680 万条真实反应 + 1300 万条预训练数据

团队从多个开源渠道收集了超过 680 万条反应记录，但开源数据质量参差不齐。真正的巧思在于预训练策略——采用片段交换算法，将真实反应的产物结构打乱重组，构造出海量不可能发生的“虚拟反应”。

为何刻意制造假反应？因为仅学习真反应，模型记住的只是“哪些反应能发生”；同时学习真假反应，模型才能理解“为什么能发生”。就像鉴别真钞，只看真币不够，必须真假对照才能抓住关键特征。该算法仅改变连接方式，不改变元素组成，既扩充了数据量，又巧妙规避了“假阴性”风险，最终将预训练数据集扩展至 1300 万条。

架构：图神经网络 + Transformer + Delta Link

分子层面采用 GNN 编码原子和化学键，分子间关系通过 Transformer 捕获。最点睛的设计是 Delta Link——既然化学反应本质是“键的断裂与形成”，就让模型在进行性能预测时直接聚焦于这个差异：将反应物与产物的化学键做差值，构建一张“差异图”，清晰标注哪些键断裂、哪些键生成。这相当于不再让模型从一堆原子中自行推测变化，而是直接将“变化区域”圈定并呈现给模型。这一设计显著提升了反应性能预测的精度。

成果表现

在四个代表性数据集上，RXNGraphormer 在活性预测、区域选择性、对映选择性任务中均取得最低 MAE。在 USPTO 衍生数据集的 16 项测评指标中，14 项达到最优。更值得关注的是：模型编码了 5 万条带有 50 种反应类型标签的数据后，同类型反应在模型空间中自然聚类——说明模型切实学到了不同化学反应的成键/断键规律。该成果已作为封面论文发表于去年 9 月的 Nature Machine Intelligence。

03 过渡态生成：从“化学家手工搭建”到“AI 端到端生成”

在研发 RXNGraphormer 的过程中，团队一直在思考一个问题：能否将过渡态信息融入模型编码，从而进一步提升预测精度？

然而，回头审视发现一个更基础的问题——过渡态数据本身极度匮乏。

过渡态是化学反应从反应物翻越至产物时，能量达到最高的势能面“鞍点”。一个反应能否发生、反应速率快慢、最终生成哪种产物，很大程度上由这个“山口”的结构决定。它直接关联反应机理，是化学家最想看清却最难捕获的瞬时结构——不可直接观测，过去只能靠化学家凭经验“手工搭建”粗略模型，再通过计算验证。对于复杂体系，这种“手工搭建”过程既缓慢又易出错。

数据集：从 300 篇文献的补充材料中“挖掘”出的过渡态

团队从 300 多篇文献的支撑材料中提取了超过 1 万个过渡态结构，经 DFT 计算后获得约 4300 个高质量结构，涵盖 42 种元素。与市面上另外两个过渡态数据集相比，该数据集的元素复杂度和最大原子数均最高——但数据量最少。复杂且稀疏，这正是问题的核心难点。

模型：2D 图输入 → 高阶等变 GNN → 3D 过渡态输出

模型的目标是端到端生成：输入 2D 分子图和反应位点信息，直接输出 3D 过渡态结构。

关键发现是：常规 3D 结构生成模型（如 EGNN）在处理这种复杂稀疏数据时“力不从心”——生成的结构常出现崩塌。改用高阶等变图神经网络后，效果显著改善。

简而言之，“等变性”要求模型遵守一个基本常识：分子在空间中的旋转和平移不会改变其本质，能量和结构关系必须保持不变。低阶模型对空间关系的感知过于粗糙，数据稀少时难以把握全局；高阶等变能够捕捉更精细的多体几何关系，因此即便只有几千条数据，也能生成结构完整、化学自洽的构型。

需要澄清的是，模型生成的是过渡态初猜，而非最终答案——它的作用是替化学家绘制出最难搭建的“草图”，最终仍交由 DFT 进行优化验证。但这一草图的质量已足够高：在样本外预测中，模型能对从未见过的复杂分子精准生成过渡态，送入 DFT 后能顺利收敛到正确结构。

在机理研究测试中，模型生成的选择性与原始文献报道一致，能在测试的 3+2 环加成反应上产生所有可能的过渡态构型。

徐老师的判断非常务实：“在复杂体系过渡态生成方面，我们已经实现了从 0 到 1 的突破。高阶等变策略是可行的，未来将继续沿此方向发力。”

04 代码演示：三个 Demo，将顶刊论文转化为可执行代码

徐老师现场运行了三个 Demo，将论文中的方法变成了可直接上手的实用工具：

虚拟反应生成——以亚胺加成反应为例，演示片段交换算法如何构造虚构反应。这是理解预训练策略最直观的切入点。
产率预测——加载模型权重和反应 SMILES，在 CPU 上即可直接输出预测产率。仅需两行代码，无任何算力门槛。
过渡态生成——输入 2D 分子的 SMILES 和反应位点，模型从随机噪声出发，经 1000 步去噪逐步形成合理的三维过渡态结构——动态可视化效果清晰，可直观看到化学键在去噪过程中逐帧生成。

相关模型权重和 Notebook 已上传至公开平台，完整权重可通过 figshare 获取，GitHub 仓库包含更多演示案例。

05 Q&A 环节中几个值得记录的关键判断

在交流环节中，有几个问答极具参考价值，值得单独拎出来：

过渡态生成的定位是什么？——不是替代 DFT，而是替代化学家手工搭建初猜的步骤。模型生成初猜，DFT 做最终校验。对于复杂体系，这一步可节省大量时间。

高阶等变为何是关键？——在数据复杂且稀疏的条件下，低阶模型（如 EGNN）生成的结构会碎裂；提升阶数后才能在少量数据上产出合理结构。不排除其他策略，但高阶等变是当前已验证的可行路径。

虚拟反应构造是否会产生假阴性？——片段交换仅改变连接方式，不改变元素组成，能最大程度避免此问题。但预训练过程中确实难以完全排除假阴性，这也是当前方法的局限之一。

催化反应大模型离通用化还有多远？——徐老师坦诚回应：“不确定。” 当前核心瓶颈是每切换一个任务就需要重新训练，尚缺乏真正的通用模型。但方向是明确的——先做大数据、做干净数据，再推动模型的通用化。

AI4S实战派：RXNGraphormer 统一四种预测任务与端到端过渡态生成

01

AI 驱动分子合成的关键里程碑

02

RXNGraphormer：单一模型覆盖四项任务

03

过渡态生成：从“化学家手工搭建”到“AI 端到端生成”

04

代码演示：三个 Demo，将顶刊论文转化为可执行代码

05

Q&A 环节中几个值得记录的关键判断

相关阅读

最新教程

最新资讯