AI审稿员能否取代人类？全球45位科学家469小时实验深度解析

2026-05-28阅读 0热度 0

科学家

学术出版体系正承受着日益增长的压力：论文提交量呈指数级攀升，而具备深度领域知识的审稿专家资源却日趋紧张。NeurIPS、ICLR等顶级AI会议的投稿量连年激增；《自然》《科学》等旗舰期刊的出版周期普遍长达100至160天。“审稿人危机”已从行业抱怨演变为亟待解决的系统性瓶颈。

在此背景下，AI审稿系统开始进入核心流程。AAAI-26已在全部22977篇主会论文的初审中部署了AI评审；《NEJM AI》等期刊推出了AI辅助的快速审稿通道。调查显示，全球超过半数的研究者已在非正式场景中使用AI工具辅助生成审稿意见，有时甚至未遵循期刊的明确指南。

然而，一个核心问题尚未得到严谨解答：AI生成的审稿意见，其实际质量究竟如何？

传统的评估方法过于笼统——通常仅对比AI与人类给出的分数，或检查“接受/拒绝”建议是否一致。这好比仅通过餐厅的星级评分来评价美食家，却无视其评论的具体内容、论证逻辑与洞察深度。这种方法的根本缺陷在于，两份审稿意见可能给出相同分数，但一份可能充满建设性洞见，另一份则流于表面。

近期，一项由卡内基梅隆大学、韩国科学技术院（KAIST）、NEC欧洲实验室等全球二十余家机构合作的研究，试图建立更精细的评估框架。这项汇聚了45位研究者的工作，历时数月，对AI审稿质量进行了一次深度、结构化的剖析。其预印本已于2026年5月20日发布于arXiv平台（编号：arXiv:2605.20668）。

一、构建评估框架：如何科学度量审稿质量

要评估审稿意见，必须首先建立一套可靠的度量标准。研究团队设计了一个三层递进的评估体系，如同一个严谨的过滤漏斗。

第一层评估“正确性”：审稿意见指出的问题，是否在论文中真实存在？是否存在对原文的误读或误解？

通过正确性检验的意见，才进入第二层“重要性”评估。重要性分为三级：关键问题（修改能显著提升论文质量）、次要问题（如格式调整、笔误修正）、无关建议（可能增加噪音）。

前两层均通过后，进入第三层“证据充分性”评估：审稿人是否引用了论文原文、补充材料、代码或相关文献来支撑其论点？

这套三层标准避免了单一分数掩盖细节缺陷。为验证评估者间信度，研究让部分条目由两位专家独立评判。结果显示，在“正确性”和“证据充分性”上专家高度一致；而在更具主观性的“重要性”判断上，一致性处于合理的中等水平。

研究选取了82篇发表于《自然》及其子刊（主要是《自然·通讯》）的论文，覆盖物理、生物、健康领域的27个子学科。每篇论文均配有公开的人类审稿意见，同时，AI审稿系统也能访问投稿前的同一版本，确保对比基准一致。

研究部署了三位“AI审稿员”——GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro——作为可访问论文全文、附录及代码的智能体。每篇论文要求AI最多生成5条审稿意见，并为每条意见提供具体的引用证据。

二、性能剖析：AI的准确度与洞察力

经过专家逐条评分后，AI与人类审稿员的表现差异逐渐清晰。

在正确率方面，表现最佳的人类审稿员（研究中定义为“顶级人类审稿员”）平均正确率达到92.3%。三位AI的正确率介于81.9%至86.2%之间，存在6到10个百分点的差距。差距明确，但并非不可逾越。

然而，评估焦点转向“重要性”时，局面发生逆转。在那些被判定为正确的批评意见中，AI所指出的问题，其平均重要性评分全面超越了顶级人类审稿员。这意味着，AI虽然犯错稍多，但其正确的批评往往能切中更核心、更关键的问题。

在证据充分性方面，GPT-5.2和Claude Opus 4.5的表现略优于人类顶级审稿员，Gemini 3.0 Pro则与之持平。

单独分析三个维度各有价值，但研究团队设计的综合指标——“完全优质意见”——更具现实意义。一条意见必须同时满足正确、重要、证据充分，才能获得此标签。这模拟了真实场景：一条正确但无关紧要或缺乏依据的意见，对作者帮助有限。

结果引人注目：在“完全优质意见”的比率上，GPT-5.2达到了60%，以统计学显著优势超越了顶级人类审稿员（48.2%）。另外两款AI的表现也与人类顶级水平相当，并显著优于表现较差的人类审稿员。

为进一步验证，研究还让专家进行整体判断：在通读所有意见后，认为哪位AI的整体质量达到或超过了最优秀的人类审稿员？结果显示，专家认为GPT-5.2在近半数的论文中做到了这一点。而从另一角度看，所有三位AI在超过半数的论文中，其意见质量都超越了最差的人类审稿员。

三、视角差异：AI与人类的审稿焦点分析

了解评分高低之外，更关键的问题是：AI与人类的审稿视角是否重合？如果AI只是复述人类的观点，其对评审团的增量价值将大打折扣。

研究团队设计了一套精细的“相似度”分析框架。他们发现，两位人类审稿员评审同一篇论文时，其批评意见的相似度仅为3.4%。这印证了学术界的核心原则：同行评审的价值源于视角的多样性。

AI与人类审稿员之间的观点重叠率为5.1%，略高于人与人之间，但差距不大。这意味着，用一位AI替换一位人类审稿员，对评审团整体多样性的损害相对有限。

但问题出现在AI内部。当比较不同AI模型对同一篇论文的审稿意见时，重叠率急剧上升至20.9%——是人与人之间重叠率的六倍。不同AI模型倾向于反复指出同一个问题。这表明，一个完全由AI组成的评审团，其视角多样性将远低于人类评审团。

从覆盖率来看，一位AI能覆盖另一位人类审稿员27.1%的批评点，反之亦然，两者基本持平。但如果使用三位AI同时审稿，它们能覆盖人类审稿员83%的“关注区域”，但在这些区域内提出的“具体批评”只有46.3%与人类一致。简言之，AI和人类常常关注论文的同一部分，但对于该部分存在何种问题，判断往往不同。

一个更有趣的发现是，AI单独发现、而所有人类审稿员均未指出的问题，占其所有批评的26%。专家评估表明，这些问题中超过80%是正确的，超过90%有充分证据支持。它们并非AI的幻觉，而是真实存在、有据可查的问题，只是被人类忽略了。当然，这些“独家发现”的平均重要性，略低于人类也注意到的问题。

四、优势与局限：AI审稿的能力边界

研究团队从专家的自由评论中，系统归纳了AI的16类典型失误和6类典型优势。这部分或许最具实用价值，因为它直接指明了改进AI审稿系统的路径。

AI的四大典型失误：

1. 忽视领域惯例：这是最常见的失误。AI的批评在通用科研标准下正确，却违背了特定子领域的常规实践。例如，AI批评一篇高能物理论文未公开所有校准数据以供复现。然而在CERN（欧洲核子研究中心）的合作框架下，此类数据通常由内部协作组维护，不随论文公开。AI将“标准的学科协作模式”误判为“可重复性缺陷”。

2. 上下文遗忘：论文中明确陈述的内容，AI却声称缺失。根源在于AI处理长上下文的能力局限。当需要综合理解正文、附录、代码和参考文献时，AI可能压缩或遗忘先前读到的信息。例如，AI批评某论文未对模型偏差进行校正，但专家指出，论文第489至496行明确描述了校准流程，AI出现了漏读。

3. 提出不切实际的要求：AI的批评在技术逻辑上成立，但要求作者完成现实中无法实现的工作。例如，AI批评一篇神经影像学研究未使用患者的全脑基因表达图谱。专家指出，此类数据目前根本不存在，该批评等同于要求作者完成不可能的任务。

4. 意见同质化：多个AI评审同一篇论文时，经常用不同措辞表达本质上相同的核心批评，导致意见高度重复，削弱了评审团的多样性价值。

AI的三大突出优势：

1. 深度代码审查：这是AI最显著的优势。人类审稿员极少有时间逐行检查提交的源代码，但AI可以。在一个典型案例中，AI发现论文声称其无线贴片的采样频率为800赫兹，但代码中的一条延迟指令意味着实际频率仅为每秒2次，相差400倍。代码注释甚至暗示，高频数据可能是在有线模式下采集的，这与论文宣称的“无线”系统核心主张相矛盾。这类深藏于代码层的根本性问题，人类审稿员极难发现。

2. 方法论合规性检查：AI会系统性核查统计假设是否满足、验证集划分是否合规、不确定性报告是否完整。这些枯燥但至关重要的方法论细节，正是人类审稿员在时间压力下最容易忽略的环节。

3. 技术细节的严格把关：在某些专业领域，AI能识别出只有领域专家才会察觉的技术承诺过度问题。例如，AI指出一篇论文摘要中“任意光学场传输”的表述存在过度承诺，因为在该领域这通常意味着包含相位信息，而论文实际只实现了振幅传输。这种深度的技术洞察力获得了领域专家的肯定。

五、自动化基准与辅助工具

每次动员45位专家进行469小时的人工评估并不可持续。研究团队探索了使用AI模拟专家判断的可能性，即让AI充当“元审稿员”。测试发现，高级AI模型在模拟人类专家判断时，其与人类专家之间的一致性已接近人类专家彼此间的一致性水平。

基于此，他们构建了名为PEERREVIEW BENCH的自动化评测基准。目前，在该基准上表现最佳的模型，其综合评分（F1分数）约为50分，这意味着相较于人类专家的黄金标准，仍有显著的提升空间。

研究团队同时开源了“CMU PAPER REVIEWER”平台，允许作者在投稿前获取AI预审反馈。一个反直觉的发现是：提高AI对单篇论文的审稿意见数量上限（从5条增至15条），并未导致意见质量下降或数量堆砌。相反，AI内部会进行筛选，仅输出其确信的高质量意见，从而在召回更多有价值意见的同时，保持了高精准率。

六、策略建议：期刊编辑如何配置审稿团队

最后，研究进行了一项对编辑具有直接参考价值的模拟：不同人机比例的评审团，其效果如何？

他们模拟了四种配置：全人类（3人）、2人1AI、1人2AI、全AI（3个）。衡量指标包括意见总数、独特意见数、噪音意见数以及高质量独特意见数。

结论明确而有力：

“2人1AI”组合在几乎所有关键指标上都与“3人全人类”组合持平或更优。它能产出同等数量的高质量独特意见，同时将总意见数和噪音意见数分别降低了17%和21%。这是一个典型的帕累托改进——在维持审稿质量的同时，减轻了所有参与方的负担。

“1人2AI”组合的高质量独特意见数开始出现小幅下降，但仍处于可接受范围。

“3AI”全自动组合则暴露出明显缺陷。由于AI之间意见重叠率过高，它们产出的高质量独特意见数大幅下降，远不及人类团队。这印证了之前的发现：AI缺乏人类那种内在的视角多样性。

若在此基础上引入“元审稿员”进行前置过滤，可以进一步降低噪音。经过滤的“1人2AI”组合，能让编辑和作者在读到一条有价值批评前需要跳过的无用批评数量降至最低。

基于这些发现，研究团队为期刊编辑提供了三种策略选择：

目标：维持质量，减轻负担。 首选“两位人类加一位AI”。审稿质量不变，噪音减少，运营成本降低。
目标：极致效率，快速筛选。 考虑“一位人类加两位AI，并加装元审稿员过滤器”。每条有价值反馈前的噪音能降低近一半。
目标：生成高可信度初筛清单。 可采用“三位AI加元审稿员过滤”。这样得到的独特批评命中率极高（是三位人类的两倍），但代价是批评的绝对数量会很少。

结论

这项大规模研究的结论，既具启发性，又符合直觉。

当前最先进的AI审稿员，其综合质量已与人类顶级审稿员并驾齐驱，并在个别指标上实现超越。AI具备真实且人类难以复制的优势：它能不知疲倦地审查代码，一丝不苟地校验统计假设，总能捕捉到人类因时间压力而忽略的方法论细节，并能贡献出那26%人类未曾发现的真实问题。

但其短板同样明显：不理解学科内的“潜规则”，存在因上下文遗忘导致的误判，以及在多AI协作时缺乏视角多样性。这些弱点短期内难以根除，也正是AI无法完全取代人类的根本原因。

或许，最恰当的定位并非“替代”，而是“增强”。AI审稿员像是一位极其勤勉、专注细节但缺乏领域语境和行业惯例知识的同事。它乐于承担人类不愿做的繁琐工作，但需要人类同事把握方向、提供背景、并贡献其独特的批判性思维。

因此，最合理的部署策略是：将其纳入审稿团队，充分发挥其特长，而非让其独立承担全部责任。人机协同，或许是应对当前“审稿人危机”的更优解决方案。

（对这项研究感兴趣的读者，可通过arXiv编号2605.20668查询完整论文，所有数据集和代码均已公开。）