顶尖学府联合测评：AI科学家独立研究能力FIRE-BENCH权威榜单揭晓

2026-05-12阅读 0热度 0

科学家

这项由加州大学圣地亚哥分校主导，联合约翰霍普金斯大学、康奈尔大学、MBZUAI及卡内基梅隆大学等机构完成的研究，于2026年2月在预印本平台arXiv发布（论文编号：2602.02905v1）。研究团队构建了名为FIRE-BENCH（全周期洞察重发现评估）的测试平台，其核心旨在解决一个前沿评估难题：衡量AI研究助手能否像人类科学家一样，独立完成从问题提出到结论形成的完整科研闭环。

科学发现本质上是复杂的系统性推理过程。人类科学家需要观察现象、构建假设、设计实验、分析数据并最终形成结论，每一步都依赖创造性思维与严谨的逻辑链条。随着大语言模型能力的突破，AI系统在文献解析、假设生成、代码编写与结果分析等环节已展现出显著潜力。这引发了一个关键议题：AI是否已具备独立承担科研项目的能力？

然而，评估AI的科研能力面临根本性挑战。若让AI探索全新的未知科学问题，其结论的正确性难以验证，因为验证过程本身可能耗费巨大资源。反之，若仅让AI在狭窄、定义明确的任务上优化指标，虽易于衡量，却无法评估其处理完整、复杂科研流程的真实能力。

针对这一困境，研究团队提出了一个巧妙的评估策略：让AI系统“重新发现”那些已被人类科学家验证的重要科学结论。这类似于要求一位侦探，在不告知案件细节与最终真相的前提下，仅依据初始线索重新调查一桩已破悬案。如果AI能通过自主推理与实验，得出与人类一致的结论，则能有力证明其具备独立科研的潜力。

基于此，团队从2024与2025年的顶级机器学习会议（ICLR、ICML、NeurIPS）中，筛选了30篇聚焦于大语言模型行为与特性研究的高质量实证分析论文，这些论文结论清晰且可验证。研究人员将每篇论文抽象为一个独立的“科研任务”：仅向AI提供高层次的研究问题，而隐藏具体的实验设计、实施细节及最终结论。

整个评估过程设计为一场严格的“盲测”。AI系统需从一个抽象的研究问题出发，自主完成实验方案设计、代码编写与执行、结果分析，直至形成有证据支持的科学结论。随后，研究团队将AI的结论与原始论文的发现进行逐项比对，采用基于声明的评分方法，计算其精确度、召回率及综合得分。

测试涵盖了四个当前最先进的AI研究助手系统，包括开源的OpenHands系统（分别基于GPT-4-mini和GPT-5模型），以及两个商业系统：OpenAI的Codex（基于GPT-5-medium）和Anthropic的Claude Code（基于Claude-4-Sonnet）。所有系统均在相同的计算环境与数据访问权限下运行，确保了评估的公平性。

一、AI科学家的表现如何？结果令人深思

测试结果揭示了当前AI系统在独立科研道路上的真实坐标。即便是表现最佳的Claude Code系统，其平均综合得分也仅为46.7分（满分100分）。其他系统的得分分别为：Codex 41.9分，基于GPT-5的OpenHands 37.9分，基于GPT-4-mini的OpenHands 31.9分。这一分数明确显示，尽管AI在单项任务上锋芒初露，但要独立驾驭完整科研流程，仍存在显著差距。

更值得关注的是结果中暴露出的不稳定性问题。研究团队对每个AI系统进行了三轮独立测试，发现同一系统面对同一任务时，其表现也可能存在巨大波动。例如，在“信息位置对模型性能的影响”任务中，OpenHands系统的得分波动范围高达40.5分。这种高度的不稳定性在科学研究中是致命的，因为科学结论的生命力恰恰在于其可重复性与可靠性。

为深入剖析AI系统失败的根源，研究团队构建了细致的错误分析框架，将科研过程拆解为四个关键阶段：研究规划、代码实现、实验执行和结论形成。分析结果指向一个核心发现：AI的短板主要并非编程能力，而在于科学思维能力的缺失。

具体而言，在研究规划阶段，AI常会采用与原始研究迥异的实验方法，或偏离最初的研究目标。这好比厨师拿到菜谱后，却决定使用一套完全不同的烹饪逻辑。在结论形成阶段，AI虽能规整地执行实验步骤，却常常无法从正确的数据中提炼出正确的结论，如同能精准演奏音符却无法理解乐曲情感的乐手。

二、不同任务难度下的表现差异

研究团队根据任务复杂程度，将30个测试任务划分为简单、中等和困难三个等级。划分标准主要考量三个维度：概念分解的复杂度、实验控制的严格性，以及数据分析的复杂程度。这类似于将任务分为基础操作、标准流程与高阶创新。

在简单任务上，AI系统的表现相对稳健。这类任务通常实验流程明确、评估标准直观，如同按照详细说明书进行操作。例如，在“信息位置对模型性能的影响”任务中，表现最好的AI系统获得了91.7的高分。这类任务更多考验AI的执行力，而非创造性。

然而，一旦面对需要复杂实验设计的困难任务，AI的表现便急剧下滑。尤其是那些需要构建精妙对照组或控制混杂因素的任务，AI往往显得力不从心。以“医疗成本预测中的种族偏见”任务为例，原始研究通过巧妙的对比实验设计，成功隔离了种族因素的影响。但所有参与测试的AI系统均未能重现这一实验设计思路，得分接近为零。

这种表现落差揭示了AI的一个根本局限：它们擅长执行明确的指令和标准化操作，但在需要创造性问题解决和复杂推理的领域，则显得捉襟见肘。如同严格按谱烹饪的厨师，食谱清晰时能复现美味，但要求其根据现有食材创新一道菜时，便面临挑战。

三、AI系统犯了哪些典型错误？

通过对AI生成的错误结论进行归类分析，研究团队识别出四种主要错误类型。其中最常见的是“矛盾性结论”，占比超过65%。这类错误表现为AI的结论与已证实的科学发现直接冲突，好比声称“水在标准大气压下于100摄氏度结冰”。

第二类错误是“不相关结论”，约占25%。AI虽然完成了实验，但得出的结论与研究问题毫不相干，就像被问及苹果的营养价值，却回答了一通香蕉的种植方法。这反映了AI在理解和聚焦核心研究目标上存在缺陷。

一个值得注意的现象是，真正的“替代性结论”——即AI提出了与原始研究不同但逻辑上可能成立的新观点——在所有错误中占比不到11%。这表明，当前的AI系统远未具备真正的科学创新能力。其错误更多源于理解偏差或执行失误，而非创造性的科学思辨。

研究还发现，AI在处理需要严格控制变量的实验时尤其容易出错。例如，在研究语言模型的某个特性时，AI常常会忽略控制其他可能影响结果的因素，这就像测试新药疗效时，忘记了设置安慰剂对照组。这种疏忽直接导致实验结果的可靠性大打折扣。

四、成本效益分析揭示的问题

除了性能，研究团队还详细核算了使用不同AI系统的经济成本。测试结果显示，性能更优的系统通常也意味着更高的花费。表现最好的Claude Code系统，平均每个任务花费0.84美元，而其他系统的成本则在每任务0.15至0.72美元之间浮动。

这种成本与性能的正相关关系，折射出当前AI技术发展的一个现实：更强大的模型需要消耗更多的计算资源。对于计划引入AI辅助科研的机构而言，需要在研究质量与预算约束之间寻找平衡点。

值得注意的是，不同任务之间的成本差异显著。那些需要复杂推理和多轮迭代的任务，其成本明显更高，因为AI系统需要进行更多的计算和API调用。这如同解决一道复杂的数学题，总需要更多的演算步骤与思考时间。

五、数据污染问题的深入调查

考虑到测试选取的都是近两年发表的论文，研究团队特别审视了一个关键问题：AI的优异表现，是否源于其在训练时已“接触”过这些研究内容？这种现象被称为“数据污染”，好比学生在考试前提前看到了答案。

为检验这种可能性，团队根据AI模型训练数据的知识截止时间，对测试任务进行了分类比较。如果存在严重的数据污染，那么AI在知识截止日期之前发表的论文任务上，理应表现更好。

然而，分析结果并未显示出明显的数据污染迹象。AI系统在知识截止时间前后发表的论文任务上，表现大致相当，有些甚至在更新发表的论文上表现更佳。这表明，FIRE-BENCH的测试结果确实反映了AI系统真实的科研能力，而非简单的记忆与复现。

研究团队认为，这得益于FIRE-BENCH独特的设计。即便AI可能“记得”某篇论文的结论，但由于测试时只提供抽象的研究问题，隐藏了具体的实验细节和结论，AI仍然需要独立完成从推理到设计的全过程。这如同记住了一个故事的结局，仍需要自己重新构思情节、人物与发展脉络。

六、对AI科学研究能力的深度思考

FIRE-BENCH的测试结果，为我们理解AI在科研中的定位提供了多重启示。首先，必须承认，当前的AI系统已初步具备了支撑科研各环节的基础能力——理解问题、设计方案、编写代码、分析数据、形成结论。这意味着，AI完全有潜力成为一名得力的“科研助手”。

然而，测试也无情地揭示了AI在独立科研方面的根本性局限。它们在需要创造性思维、复杂推理和精密控制的任务上表现不佳，特别是在设计巧妙对照实验或处理多变量交互时，短板尤为明显。这说明，当下的AI更适合承担科研中那些执行性、流程化的工作，而非需要深度科学洞察与原创性思考的核心任务。

此外，AI表现出的显著不稳定性，是将其应用于严肃科研时必须正视的风险。科学发现的可重复性是基石，而AI目前这种“时灵时不灵”的特性，使其难以独立担当大任。这就像一个精度飘忽不定的测量仪器，即便偶尔能测准，其整体可靠性也令人存疑。

七、对未来AI科学研究的展望

FIRE-BENCH的价值不仅在于评估当下，更在于指引未来。研究发现，AI的弱点集中体现在研究规划和结论形成这两个最需要科学思维与创造力的环节。因此，未来AI系统的发展，应当重点强化这些方面的能力。

在研究规划上，AI需要更深刻地理解科学问题的本质，能够设计出既严谨又巧妙的实验方案。这要求AI不仅具备逻辑推理能力，还需培养一定的“科学直觉”和创造性思维。在结论形成上，AI需提升从复杂数据中提取有意义模式、并将其与更广阔科学知识体系关联起来的能力。

一个重要的改进方向，是增强AI对科学方法论本身的理解。当前的AI更多是在模仿人类科学家的具体操作，而非理解科学推理的基本原则，例如如何控制变量、如何设计对照、如何处理混杂因素等。如果能在训练中融入这些元科学知识，其科研能力有望获得质的提升。

另一个关键点是提高AI系统的稳定性和可靠性。这可能需要在其训练过程中引入更多涉及科学推理的任务，让AI在面对不确定性和复杂性时，能够保持输出质量的一致与稳定。

总而言之，FIRE-BENCH揭示了一个既鼓舞人心又发人深省的现状：AI系统已经握有了参与科学研究的多把钥匙，但要真正成为独立的“科学研究者”，道路依然漫长。目前的AI，更像是一位勤奋但尚需指导的研究助理，它能高效处理海量的数据分析和实验操作，但在需要创造性洞察和深度科学思维的疆域，仍然离不开人类的引领。

这项研究也提醒我们，AI在科研中的理想角色，应是增强人类科学家，而非替代他们。通过让AI接管更多执行性工作，人类科学家得以将宝贵精力聚焦于更高层次的创造性思考与科学洞察，从而催生人机协作的全新科研范式。同时，FIRE-BENCH为评估和提升AI科研能力提供了一个标准化的平台。可以预见，随着技术的持续演进，AI系统的科学研究能力必将迈上新的台阶。

对这项研究细节感兴趣的读者，可通过论文编号arXiv:2602.02905v1在预印本平台查阅全文。这项工作不仅为评估AI科研能力提供了新方法论，也为未来AI在科学发现中扮演更重要的角色，奠定了坚实基石。

Q&A

Q1：什么是FIRE-BENCH测试平台？

A：FIRE-BENCH是一个专门用于评估AI系统独立科学研究能力的测试平台。它通过让AI系统“重新发现”已被人类科学家验证过的科学结论，来检验其是否具备完整的科研闭环能力，其设计理念类似于让侦探在不知晓真相的情况下重查旧案。

Q2：当前最先进的AI科学助手表现如何？

A：测试显示，表现最好的Claude Code系统综合得分仅为46.7分（满分100分），其他系统得分在32至42分区间。更突出的问题是结果的不稳定性，同一系统在同一任务上的得分波动可达40分之巨，这对于强调可重复性的科学研究而言是一个严峻挑战。

Q3：AI系统在科学研究中主要存在哪些问题？

A：AI的主要问题集中在研究规划与结论形成两大环节。它们常常采用不恰当的实验方法，或无法从正确的实验数据中推导出准确结论。在简单、执行性的任务上表现尚可，但一旦面临需要创造性思维和复杂实验控制的任务，表现便会大幅下滑。