ChemReason-Bench揭示大模型化学合成逻辑短板

2026-06-20阅读 0热度 0

上海交大

作者 | 论文团队

编辑丨ScienceAI

先说一个核心判断：有机合成、材料开发、药物筛选这些领域正在加速奔向高度自动化，但“无人实验室”真正要迈过的坎，不是什么机械臂的精度问题，而是一道语言和逻辑的鸿沟。

这话怎么说？学术文献里的化学合成流程，大都是用自然语言写出来的。每一个实验步骤之间，都藏着无数约定俗成的操作惯例和严格的依赖关系。试剂加错了顺序，或者漏掉一个后处理步骤，整条合成链就可能崩掉。现在的大语言模型确实背了不少化学知识，但一个问题始终悬而未决：会答题的模型，真的会“做实验”吗？

最近，上海交通大学计算机学院、人工智能研究院AI for Science团队（在许岩岩副教授等指导下）放出了ChemReason-Bench——这是目前首个大规模、经过人工验证的实验程序推理基准。说白了，它就是专门用来诊断大语言模型在理解和生成可执行实验流程时，到底卡在哪里的。这项研究已经被自然语言处理顶会ACL 2026录用。项目代码、数据和更多细节都已经开源。

论文地址：https://openreview.net/forum?id=aVXpKdGUFx

GitHub项目地址：https://github.com/Khadaz/ChemReason-Bench

痛点：化学知识 ≠ 程序推理

现有的化学大模型评测，重心基本都放在知识问答上——模型从一堆选项里挑出正确答案就行。但真实的实验设计可不是这么回事。它要求模型具备跨步骤的约束满足能力：前一步的反应状态会限制后一步的操作；一个看起来合理的化学建议，很可能和整个流程的操作约束直接冲突。

这种“程序一致性”的缺失，会带来一个严重的评估盲区。一个多选题能拿高分的模型，真到生成完整实验流程时，可能犯下致命错误。没有专门针对这一能力的诊断工具，就根本说不清模型到底在哪个环节翻了车。

ChemReason-Bench：给模型的“实验逻辑”做一次全面体检

ChemReason-Bench没有走“总分定胜负”的老路，而是把实验程序推理拆成了六种互补的能力维度来做全方位诊断。它基于一个统一的结构化框架，里面有明确的占位符，大量操作约束都可以自动验证。

基于500个有机合成反应，研究团队构建了7306个人工验证的高质量任务实例，涵盖了六类任务：

步骤排序：给定几个候选操作，判断它们的正确先后顺序。
步骤验证：判断一个候选动作在当前实验语境下是否可行。
条件验证：判断给定的温度、时长等反应条件是否合理。
步骤补全：在实验流程的“空缺”处，生成一个符合前后约束的正确操作。
对比选择：从具有迷惑性的选项中，准确识别出物质角色。
原理解释：为某个实验操作或条件选择提供背后的因果逻辑。

通过这个多任务设计，研究人员可以给模型画出一张能力雷达图，清晰看到它的强项和短板在哪里。

核心发现：结构化生成是最大瓶颈，专业化学模型反而不敌通用模型

研究团队对GPT-5.2、DeepSeek-v3.2、Llama-3.1以及ChemLLM等在内的18个开源、闭源和领域专用模型做了统一评测。几个关键发现值得注意：

（1）**顶尖通才模型初步具备程序推理能力。**表现最强的GPT-5.2拿下了70.30的综合得分，DeepSeek-v3.2紧随其后（65.21），说明大模型在程序一致性方面确实有了进步。

（2）**“步骤补全”是公认的超级难题。**在所有任务中，步骤补全的得分普遍偏低。即便最强的GPT-5.2也只得了51.65分。这说明，在严格的约束下生成一个完全正确的结构化操作步骤，仍然是当前模型面临的重大挑战。

（3）**化学专用模型表现不佳。**像ChemLLM、ChemDFM、LlaSMol这些经过领域数据训练的模型，在这个基准上全面落后于通用大模型。换句话说，实验程序的逻辑推理能力，远不是靠堆领域语料就能解决的，它更需要底层的规划和约束遵循能力。

（4）**生成与决策之间存在不一致现象。**部分模型在自由文本生成时表现尚可，但一旦要求直接输出“是/否”这类离散决策，就明显暴露出概率偏差。这种“表里不一”揭示了模型决策过程内在的不稳定性。

从评测到进化：用可验证反馈训练“会思考”的AI助手

ChemReason-Bench不只是当一把“尺子”，它还是一套“训练器械”。团队同步发布了ChemReason-TUNE，一个包含超过12万个任务实例的大规模训练集。

实验结果表明，通过在ChemReason-TUNE上进行监督微调，像Gemma-2-9B这样的小模型，也能在这个基准上拿到和顶尖闭源模型相当的成绩。这为未来在实验室内本地化部署轻量级、高可靠性的化学实验AI助手，提供了一条清晰可行的路径。

结语：迈向“语言驱动”的化学研究新范式

ChemReason-Bench的推出，意味着化学大模型的评估正在从浅层的知识问答，迈向深层的、多维度的程序逻辑验证。它揭示了一个清晰的现状：即使是最强大的AI，在“动手实操”的逻辑一致性上，距离一名可靠的化学家还有不小的差距。

当然，这只是一个新的起点。随着可验证评测体系的不断完善和模型训练范式的持续革新，大语言模型很有希望真正跨越化学实验的“最后一道语言壁垒”，从“能说会道”走向“能做会做”，成为未来智能合成平台里真正靠得住的逻辑引擎。

团队介绍

上海交通大学人工智能研究院AI for Science团队，在杨小康教授、金耀辉教授、许岩岩副教授带领下，包含十余位博士后与硕博研究生。团队重点研究生成式人工智能，特别是科学大模型赋能化学研究，针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。

团队此前发布了首个化学合成大语言模型——白玉兰科学大模型Chemma。它是首个具备反应生成与“人在环路”反馈优化能力，能够指导实验探索的化学大模型。团队还建设了白玉兰合成科学自主智能实验室（BSAIL），实现了以科学大模型为大脑、拥有具身操作能力的“干湿闭环”自主无人实验系统。