ChemReason-Bench揭示大模型化学合成逻辑短板
作者 | 论文团队
编辑丨ScienceAI
先说一个核心判断:有机合成、材料开发、药物筛选这些领域正在加速奔向高度自动化,但“无人实验室”真正要迈过的坎,不是什么机械臂的精度问题,而是一道语言和逻辑的鸿沟。
这话怎么说?学术文献里的化学合成流程,大都是用自然语言写出来的。每一个实验步骤之间,都藏着无数约定俗成的操作惯例和严格的依赖关系。试剂加错了顺序,或者漏掉一个后处理步骤,整条合成链就可能崩掉。现在的大语言模型确实背了不少化学知识,但一个问题始终悬而未决:会答题的模型,真的会“做实验”吗?
最近,上海交通大学计算机学院、人工智能研究院AI for Science团队(在许岩岩副教授等指导下)放出了ChemReason-Bench——这是目前首个大规模、经过人工验证的实验程序推理基准。说白了,它就是专门用来诊断大语言模型在理解和生成可执行实验流程时,到底卡在哪里的。这项研究已经被自然语言处理顶会ACL 2026录用。项目代码、数据和更多细节都已经开源。
论文地址:https://openreview.net/forum?id=aVXpKdGUFx
GitHub项目地址:https://github.com/Khadaz/ChemReason-Bench
痛点:化学知识 ≠ 程序推理
现有的化学大模型评测,重心基本都放在知识问答上——模型从一堆选项里挑出正确答案就行。但真实的实验设计可不是这么回事。它要求模型具备跨步骤的约束满足能力:前一步的反应状态会限制后一步的操作;一个看起来合理的化学建议,很可能和整个流程的操作约束直接冲突。
这种“程序一致性”的缺失,会带来一个严重的评估盲区。一个多选题能拿高分的模型,真到生成完整实验流程时,可能犯下致命错误。没有专门针对这一能力的诊断工具,就根本说不清模型到底在哪个环节翻了车。
ChemReason-Bench:给模型的“实验逻辑”做一次全面体检
ChemReason-Bench没有走“总分定胜负”的老路,而是把实验程序推理拆成了六种互补的能力维度来做全方位诊断。它基于一个统一的结构化框架,里面有明确的占位符,大量操作约束都可以自动验证。
基于500个有机合成反应,研究团队构建了7306个人工验证的高质量任务实例,涵盖了六类任务:
步骤排序:给定几个候选操作,判断它们的正确先后顺序。
步骤验证:判断一个候选动作在当前实验语境下是否可行。
条件验证:判断给定的温度、时长等反应条件是否合理。
步骤补全:在实验流程的“空缺”处,生成一个符合前后约束的正确操作。
对比选择:从具有迷惑性的选项中,准确识别出物质角色。
原理解释:为某个实验操作或条件选择提供背后的因果逻辑。
通过这个多任务设计,研究人员可以给模型画出一张能力雷达图,清晰看到它的强项和短板在哪里。
核心发现:结构化生成是最大瓶颈,专业化学模型反而不敌通用模型
研究团队对GPT-5.2、DeepSeek-v3.2、Llama-3.1以及ChemLLM等在内的18个开源、闭源和领域专用模型做了统一评测。几个关键发现值得注意:
(1)**顶尖通才模型初步具备程序推理能力。**表现最强的GPT-5.2拿下了70.30的综合得分,DeepSeek-v3.2紧随其后(65.21),说明大模型在程序一致性方面确实有了进步。
(2)**“步骤补全”是公认的超级难题。**在所有任务中,步骤补全的得分普遍偏低。即便最强的GPT-5.2也只得了51.65分。这说明,在严格的约束下生成一个完全正确的结构化操作步骤,仍然是当前模型面临的重大挑战。
(3)**化学专用模型表现不佳。**像ChemLLM、ChemDFM、LlaSMol这些经过领域数据训练的模型,在这个基准上全面落后于通用大模型。换句话说,实验程序的逻辑推理能力,远不是靠堆领域语料就能解决的,它更需要底层的规划和约束遵循能力。
(4)**生成与决策之间存在不一致现象。**部分模型在自由文本生成时表现尚可,但一旦要求直接输出“是/否”这类离散决策,就明显暴露出概率偏差。这种“表里不一”揭示了模型决策过程内在的不稳定性。
从评测到进化:用可验证反馈训练“会思考”的AI助手
ChemReason-Bench不只是当一把“尺子”,它还是一套“训练器械”。团队同步发布了ChemReason-TUNE,一个包含超过12万个任务实例的大规模训练集。
实验结果表明,通过在ChemReason-TUNE上进行监督微调,像Gemma-2-9B这样的小模型,也能在这个基准上拿到和顶尖闭源模型相当的成绩。这为未来在实验室内本地化部署轻量级、高可靠性的化学实验AI助手,提供了一条清晰可行的路径。
结语:迈向“语言驱动”的化学研究新范式
ChemReason-Bench的推出,意味着化学大模型的评估正在从浅层的知识问答,迈向深层的、多维度的程序逻辑验证。它揭示了一个清晰的现状:即使是最强大的AI,在“动手实操”的逻辑一致性上,距离一名可靠的化学家还有不小的差距。
当然,这只是一个新的起点。随着可验证评测体系的不断完善和模型训练范式的持续革新,大语言模型很有希望真正跨越化学实验的“最后一道语言壁垒”,从“能说会道”走向“能做会做”,成为未来智能合成平台里真正靠得住的逻辑引擎。
团队介绍
上海交通大学人工智能研究院AI for Science团队,在杨小康教授、金耀辉教授、许岩岩副教授带领下,包含十余位博士后与硕博研究生。团队重点研究生成式人工智能,特别是科学大模型赋能化学研究,针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。
团队此前发布了首个化学合成大语言模型——白玉兰科学大模型Chemma。它是首个具备反应生成与“人在环路”反馈优化能力,能够指导实验探索的化学大模型。团队还建设了白玉兰合成科学自主智能实验室(BSAIL),实现了以科学大模型为大脑、拥有具身操作能力的“干湿闭环”自主无人实验系统。
