2026权威报告：16所顶尖机构测评AI替代科学家可行性

2026-06-01阅读 0热度 0

华中科技大学

当看到这份由华中科技大学、里海大学、清华大学、武汉大学、Salesforce Research、Squirrel AI Learning、西北大学、上海交通大学、加州大学圣地亚哥分校、香港中文大学、伊利诺伊大学芝加哥分校、斯坦福大学、Google Cloud AI Research、Recursive Superintelligence和微软研究院等十六家顶尖机构联合完成的综述时，你大概会意识到：这绝对不是一篇普通的论文。它以一个预印本的形式发布于2026年5月，编号为arXiv:2605.23204，研究方向直指计算机人工智能领域（cs.AI）。

科学研究这件事，在人类历史上一直是一项极其耗费心智的工作。一位科学家要花几个月甚至几年的时间，在浩如烟海的文献中寻找线索，提出假设，设计实验，分析数据，最后才能写出一篇论文。这个过程漫长、费力，充满了失败和反复。

近年来，人工智能技术开始悄悄渗入这个领域。ChatGPT可以帮你读文献、写草稿，GitHub Copilot可以帮你写实验代码，一些更复杂的系统甚至声称能够“自动做科学研究”。这听起来像科幻小说，但确实已经发生了。

这篇综述的意义在于，它是迄今为止对“AI辅助科学研究自动化”这一领域最系统、最全面的梳理与分析。研究团队没有简单地说“AI很厉害”或者“AI还不行”，而是提供了一套精密的分析框架，帮助所有人看清楚：AI到底在科学研究的哪些环节已经能帮上忙，在哪些环节还远远不够，以及未来的路该怎么走。

一、从“帮手”到“研究者”：AI在科研中的五个层级

理解这篇研究，可以把科学研究的过程比作一次复杂的探险之旅。这次探险包含五个阶段：出发前查地图（阅读文献）、制定路线（提出假设和计划）、实际出发走路（做实验）、评估是否走对了路（验证和审查）、最后写游记分享给所有人（撰写论文）。

研究团队把AI在这次探险中扮演的角色，划分成了五个层次，从L0到L4。

最基础的L0是“纯人类探险”——AI根本没有参与，所有的地图查阅、路线规划、行走和游记撰写，全部由人类探险家自己完成。这对应的是传统的科学研究方式。

L1是“人类主导，AI当向导”。这个阶段，探险家还是自己做所有决定，但AI可以帮你快速翻阅地图、草拟行程表、提供一些建议。ChatGPT、Elicit、Semantic Scholar这类工具就在这个层次发挥作用。人类牢牢掌握着方向盘，AI只是一个聪明的助手。

L2是“AI能走路，但人类要检查每一步”。这个阶段，AI可以实际执行一些任务了——比如自己去找资料、写代码、跑实验，但每次走完一段路，都需要人类来确认“这条路走对了吗？”。像The AI Scientist、AI co-scientist这样的系统就在这个层次运作。人类不用亲自走每一步，但必须随时审核AI的进度。

L3是“AI主导探险，人类在紧急情况下才介入”。这个层次的AI可以自己规划路线、选择方向、走完大部分旅程，只有在遇到特别复杂或者危险的情况时，才会请人类帮忙。研究团队特别指出，目前这个层次还没有任何系统真正达到——它代表的是一个更严格的自主科研前沿，而不是随便一个连接了多个步骤的系统就能宣称自己达到了。

L4是“AI完全自主探险”，人类根本不需要出现在旅程中，AI从制定目标到写出游记全程独立完成。研究团队明确表示，这个层次目前还只是一个遥远的愿景，现实中根本没有系统接近这个标准。

这五个层次构成了研究团队提出的“AutoResearch”（自动化科学研究）框架的核心。而L1到L2的这段区间，研究团队给了它一个特别的名字——“Vibe Research”，指的是那种人工智能帮你扩展了能力、但你始终坐在驾驶座上的研究方式。这个词很形象：你感受到了AI带来的氛围和动力，但旅途的每一个关键决定还是你来做。

二、探险的五大阶段：AI在每个环节能做什么

研究团队把科研的整个流程拆解成五个具体的技术阶段，就像把一次探险拆解成装备准备、路线规划、实际徒步、安全评估和撰写报告五个步骤一样。

第一阶段：查地图——文献阅读与研究基础

每一次科学探险都要先看地图，弄清楚前人走过哪里、发现了什么、哪里还没有人去过。在科研中，这对应的是阅读大量学术文献的过程。

AI在这个阶段已经相当有用了。研究团队将目前的文献处理技术分成了四种不同的“地图获取方式”。

最简单的是“搜索式”——就像用关键词在地图上搜索目的地，AI帮你找到相关论文，总结关键信息，给你一个大致的印象。LitLLM和STORM是这类工具的代表，它们能快速给出本地化的研究背景，但这张“地图”相对粗糙，很多细节可能被丢失。

更深入一层的是“证据式”——这类系统不只是找到论文，还会明确标注“这个结论来自哪篇论文的哪段话”，就像给地图上的每一条路都标注了信息来源。OpenScholar和PaperQA2是这方面的代表，它们让AI的回答有了可以追溯的证据链。

“结构式”处理则更进一步，它把不同论文之间的关系（比如哪些方法互相支持、哪些结论彼此矛盾）整理成一张知识网络图，就像把零散的地图碎片拼成一张完整的地形图。SciAgents是这方面的代表性系统。

最高级的是“记忆式”，这类系统会把读过的所有文献整理成一个可以反复查询的知识库，就像把所有地图信息存入一个数据库，后续探险的任何阶段都可以随时调取。The AI Scientist和AI Scientist-v2中包含了这类组件。

研究团队指出，目前文献处理领域真正的瓶颈不是“找不到论文”，而是“无法保证找到的信息在后续使用中依然准确、可追溯”。这就好像你的地图信息可能在传递过程中失真了，而你并不知道。

第二阶段：规划路线——假设形成与研究计划

看完地图之后，探险家需要决定去哪里、走哪条路。在科研中，这对应的是提出研究假设和制定实验计划的过程。

研究团队发现，目前AI在这个阶段有四种不同的工作方式。

最直接的是“提案式”——AI直接生成一个或几个研究方向，然后进行简单的筛选。ResearchAgent就是这样工作的，它能基于文献自动提出研究问题、方法和实验设计。这种方式简洁高效，但问题是选择太少，“谁来否决坏主意”的机制比较弱。

“多智能体辩论式”则更有意思。这类系统模拟了一个团队讨论的过程：不同的AI角色分别提出假设、互相批评、讨论优劣，最后整合出一套更成熟的研究方向。AI co-scientist和SciSciGPT采用的就是这种策略，就像让多个探险家各自提出路线方案，然后一起讨论选哪条。

“结构引导式”则依托知识网络图来寻找研究空白，就像在地形图上找到没有探险家走过的空白区域，那里最可能有新发现。Scideator和SciAgents在这方面表现突出。

“搜索进化式”是最系统化的方法：AI不只提出一个计划，而是生成很多个候选方案，给每个方案打分，淘汰差的，保留好的，再基于好的方案继续进化，直到找到最优解。AI Scientist-v2中的树形搜索和AlphaEvolve都采用了这种思路，就像让很多支探险队同时出发走不同路线，然后选出表现最好的那支继续前进。

研究团队强调，这个阶段真正的难题不是“生成多少想法”，而是“如何在投入大量资源之前，就把不靠谱的想法给淘汰掉”。目前大多数系统在这方面做得还不够好。

第三阶段：实际走路——实验执行与工具使用

光有地图和计划还不够，最终还是要真正上路走。在科研中，这对应的是实际运行实验、使用各种工具获取数据的过程。

这个阶段，AI工作的“地形”差异很大。

在计算机科学领域，AI可以直接操作代码仓库、运行程序、记录错误并修复——就像在一个完全数字化的地形上探险，路况清晰，反馈即时。OpenHands、Aider、SWE-agent就是专门做这件事的工具，The AI Scientist系列系统中的实验执行部分也依赖这类基础设施。

在需要使用外部专业工具的领域，AI则充当一个“工具协调员”，它知道什么时候该用什么工具，就像探险队带了望远镜、GPS、温度计各种设备，AI负责告诉每个队员什么时候用什么设备。ChemCrow（化学领域）、Biomni（生物医学领域）就是这类系统的代表。

在物理化学领域，甚至出现了AI指挥机器人在实验室里做实验的系统。A-Lab可以自主完成无机材料的合成实验，AI Chemist能读论文、指挥机器人做化学实验并分析结果。这就像AI不仅规划了探险路线，还真的在用机器人手臂去翻山越岭。

还有一类是“人类把关式”执行——AI可以提出每一步要做什么，但执行前必须经过人类专家的安全检查和批准，特别是在可能有风险或代价高昂的操作上。AI co-scientist、FreePhD、Agent Laboratory都采用了这种模式，确保AI的行动在人类监督的范围内进行。

研究团队指出，这个阶段最容易被误解的一点是：能运行的代码不等于有意义的科学实验。一个程序能跑起来，并不代表它在测试一个真正有价值的假设，也不代表实验设计是合理的。

第四阶段：检查路线——反馈、验证与审查

走了一段路之后，探险家需要停下来问：我走的方向对吗？我有没有迷路？这个地方真的是我要去的目的地吗？在科研中，这对应的是对实验结果的验证、审查和批判性评估。

研究团队认为，这是当前AI科研系统最薄弱的环节，也是阻止AI从L2迈向L3的最大障碍。

最直接的验证方式是“重跑实验”——把实验再做一遍，看看结果是否稳定，或者换一个基准线来对比，看看结果是否真的比别人好。PaperBench评测系统就是专门测试AI能否在这个层面做好验证的工具。这种方式的优点是直接，缺点是只能发现实现层面的问题，无法评估科学价值层面的问题。

更深入的是“批评式验证”——有专门的AI模块（或多个AI角色）对实验结果提出批评性意见，就像让探险队里的质疑者不断追问“你确定这条路是对的吗？有没有更好的方案？”。LLM-REVal研究了这种多轮审查和修订的动态过程。这种方式能发现更深层的问题，但AI自身的批评能力有局限，有时只是在挑语言风格而非真正的科学问题。

最高级的验证是“专家或时间检验”——把结论拿给真正的领域专家看，或者等待时间的检验（比如能否被后续研究复现或引用）。FIRE-Bench设计了让AI重新发现已知科学结论的测试任务，这种测试比简单的代码运行要求高得多。AIRS-Bench则测试AI在完整科研流程中的表现，把薄弱环节暴露出来。

研究团队强调，验证阶段最核心的能力不是“给结果打分”，而是“有能力拒绝坏结果”。目前大多数AI系统缺乏真正的“否决机制”——它们很难在自己生成了一个看起来不错的结果之后，主动说“其实这个结论是错的，我们需要重来”。

第五阶段：写游记——报告撰写与知识传播

探险结束后，要把经历写成游记分享给所有人。在科研中，这对应的是撰写论文、整理数据图表、回应审稿人意见的过程。

这个阶段AI相对表现最好，因为写作本来就是语言模型的强项。

最常见的是“草稿式写作”——AI根据已有的数据和分析，生成论文各章节的草稿。LitLLM擅长写参考文献综述部分，The AI Scientist可以生成完整的论文草稿，AI Scientist-v2甚至能生成符合研讨会要求水准的论文。

“对话式写作”则更进一步：AI不只是写初稿，还能模拟审稿人的意见，自动生成“作者回应”，并根据这些意见修改论文。LLM-REVal研究了这种多轮对话式的论文修改过程。

“证据链接式写作”是最理想的形态：论文的每一个结论都和具体的数据、代码、图表直接关联，读者可以顺着文字的脉络，一路追溯到原始证据。PaperBench在评估AI时，就特别看重这种“写了什么”和“数据支持什么”之间的一致性。

研究团队指出，写作阶段最大的风险是“文字过于流畅，掩盖了证据不足的问题”。AI能生成非常漂亮的论文，但漂亮的文字和可靠的科学结论是两回事。

三、AI科研的历史脉络：从机器人科学家到自主研究流水线

为了理解当前的状况，研究团队梳理了AI参与科学研究的整个历史进程，就像回溯一次漫长探险旅途上的每一个重要营地。

最早期的探索出现在2004年前后。英国科学家建造了一个名叫“Adam”的机器人科学家，它能在功能基因组学领域自动提出假设、设计实验、运行实验、分析结果。同一时期，AI Feynman能从数据中自动发现物理规律，用符号推导出类似开普勒定律这样的公式。这些早期系统展示了“科研某些环节可以自动化”的可能性，但它们都非常局限，只能在极其狭窄的领域内运作。

2022年到2023年间，随着大型语言模型的崛起，AI的文献处理能力大幅提升。BioPlanner能帮助生物学家自动规划实验方案，LitLLM能生成高质量的文献综述，Coscientist连接语言模型和化学实验设备，在有机化学领域实现了一定程度的自主实验。这个时期对应的是“AI开始能执行单个科研任务”的阶段。

2024年是一个重要的分水岭。The AI Scientist横空出世，第一次展示了一个系统能够从头到尾走完整个科研流程：从产生想法、写代码、跑实验、分析数据，到撰写论文、模拟同行评审。同年，SciAgents把多智能体协作引入科学推理，A-Lab实现了无机材料的闭环自主合成。Research Agent、OpenScholar、PaperQA2让文献辅助研究进入了更成熟的阶段。

2025年到2026年，这个领域进入了快速扩张期。AI Scientist-v2、AI co-scientist、FreePhD、Robin、Agent Laboratory、OmniScientist、ARIS、NanoResearch等系统相继出现，形成了一个从单体系统到协作生态的多元化格局。与此同时，专门评测AI科研能力的基准测试也大量涌现：ResearchBench、AIRS-Bench、FIRE-Bench、PaperBench等，让这个领域有了更清晰的能力边界参照。

研究团队用一个简洁的比喻概括了这段历史：AI在科研中的角色，从“一个聪明的助手”，演变成“一个能独立完成某些任务的执行者”，再到“一个能把多个任务串联成流水线的协调者”。但在这三个身份之间，有着巨大的差距，而且每次跨越都比看起来要难得多。

四、评估AI科研：五把不同的尺子

研究团队提出了一套评估AI科研系统的框架，包含五个维度，就像用五把不同的尺子来丈量一个探险队的能力，每把尺子测量的是完全不同的东西。

新颖性测量的是“这个发现是真正的新大陆，还是已经有人去过的地方”。真正的新颖性不是“看起来跟别人不一样”，而是能打开新的研究方向，让同行觉得“这值得跟进”。目前的评估方法要么依赖专家判断（慢、贵、不稳定），要么依赖AI自动打分（容易被表面差异迷惑）。研究团队认为，目前没有任何评估方法能真正可靠地判断AI生成想法的新颖性。

有效性测量的是“这条路真的能到达目的地，还是看起来像一条路”。这包括研究方法是否合理、实验设计是否恰当、从数据到结论的推理是否站得住脚。BioDSA-1K专门测试AI在生物医学领域的假设验证能力，PaperBench测试AI能否真正复现已有论文的实验，SciReplicate-Bench则测试AI能否在NLP领域实现算法的完整复现。

影响力测量的是“这次探险发现了什么值得载入史册的东西”。但影响力是一个需要时间才能看清楚的维度——一项研究被引用多少次、被多少后续研究采用、真正改变了多少人的工作方式，这些都需要几年甚至更长时间才能看出来。目前所有评估体系都只能测量短期表现，无法评估长期影响。

可靠性测量的是“这支探险队每次出发都能到达同一个目的地，还是结果飘忽不定”。AI系统的一个严重问题是，同样的问题换个问法、换个随机种子，可能得到完全不同的结果。AIRS-Bench和FIRE-Bench都特别强调了这一维度。一次漂亮的展示远远不够，需要在反复运行、不同条件下都稳定可靠。

来源可追溯性测量的是“你能说清楚这个结论是从哪里来的吗”。这是科学可信度的基础——如果一个AI说“X导致Y”，你必须能追溯到它是基于哪些证据、使用了哪些工具、经过了哪些推理步骤才得出这个结论。CiteME专门测试AI能否准确引用来源，LitSearch测试文献检索的质量如何影响后续可信度，AI Agent Index则记录了已部署AI系统的透明度和可追溯性。

研究团队特别警告了一个常见的评估误区：用一个维度的好成绩来暗示其他维度也很好。比如，一个系统在“写出漂亮论文”方面得了高分，不代表它的结论有可靠的证据支撑；一个系统能稳定跑完完整流程，不代表它的研究方向有真正的科学价值。

五、各领域的真实现状：哪里走得快，哪里走得慢

研究团队发现，AI在科研中的自主程度，在不同领域之间存在巨大差异。

计算机科学和人工智能领域是AI辅助科研最成熟的地方。原因很简单：这个领域的研究对象本来就是数字化的——代码可以直接运行，实验结果可以立刻看到，失败了可以立刻重来。The AI Scientist、AI Scientist-v2、Agent Laboratory、NanoResearch、ARIS都专注于这个领域，已经能相当流畅地从想法生成到论文产出走完整个流程。但即便在这个最有利的领域，研究团队也指出，AI仍然很难判断“什么问题值得研究”、“这个结果是否真的重要”，以及“什么时候应该放弃一个没有前途的方向”。

物理学和工程领域处于中间位置。在可以用模拟和数值计算来验证假设的子领域（比如计算物理、量子设备），AI已经能完成不少有实质意义的工作。AI Feynman可以从数据中发现物理规律，PhysMaster能处理理论物理的研究任务，QuantumAgent SDL能为量子计算设备进行闭环校准实验。但在需要实际搭建物理装置、面对真实仪器误差和环境干扰的实验物理领域，AI的自主程度就大打折扣了。

化学和材料科学是实验性领域中走得最快的。这里有一个独特的优势：化学反应可以用结构化的语言表达（比如分子图、反应方程式），可以设计标准化的机器人实验流程。A-Lab已经能自主合成无机材料，AI Chemist能读文献然后让机器人做实验，GNoME用计算方法筛选出了大量新的稳定材料候选。研究团队认为，在边界清晰、搜索空间有限的子任务上，这个领域已经接近了较高自主程度，但在复杂的开放式探索中，仍然受到实验室基础设施、可重复性和跨实验室验证等问题的制约。

生物学和生物医学领域正在快速追赶，但情况更复杂。CellVoyager能自主分析单细胞RNA测序数据，BioAutomata能做代谢工程的闭环优化，BioMARS能协调实验室机器人做生物实验，Genesis能推进系统生物学模型的自动化改进。但生物系统本身的复杂性——不同细胞、不同个体、不同实验室之间的巨大差异——使得“可靠复现”在这个领域极其困难。任何AI在这个领域取得的进展，都需要更大量的验证。

医学和临床研究领域的自主程度相对较低，原因不是技术问题，而是伦理和责任问题。AI在系统综述、文献整理、证据合成等纯文献处理任务上已经相当有用：TrialMind能自动化临床系统综述的多个步骤，MetaMind能做网络荟萃分析，SOLES能持续更新证据综述。但一旦涉及到“这对真实患者意味着什么”，人类医生的判断和责任就必不可少，任何AI都无法也不应该替代。

经济学和社会科学领域则面临另一种困难。这些领域的研究对象是人类社会，而社会现象的因果关系极其复杂，往往没有明确的对错之分。AI可以处理大量文献、整理数据、运行统计分析，但“这个结论是否真的揭示了因果关系”、“这个结论在不同文化背景下还成立吗”这类判断，目前AI完全无法独立完成。HLER代表了这个领域的实践尝试：在人类监督下，AI协助完成数据处理、假设生成和计量经济学分析，但每个关键决策点都有人类经济学家把关。

地球和环境科学领域有丰富的数字化数据（卫星图像、气候模拟、地球物理记录），这为AI提供了很好的作业基础。EarthLink能协助气候科研工作流程，TianJi能探索大气物理机制，AutoClimDS能整合气候数据并自动分析。但地球系统的特殊性在于：它不像实验室那样可以反复重现，不同气候事件只发生一次，而且验证一个气候假设可能需要等待几十年的观测数据。

具身机器人领域则代表了一种特殊的情况：这里的“科研”本身就是在开发AI，所以AI辅助研究的目标是加速AI本身的研发。EmbodiedClaw能自动化机器人开发的工作流程，RoboClaw能支持机器人的长期自主学习，RoboTwin和RoboTwin 2.0能批量生成机器人训练数据和测试任务。这个领域走得比较快，但研究团队指出，这里的“自主”主要体现在“加速研究工具的生产”，而不是真正意义上的“自主科学发现”。

六、AI科研的深层困境：三个还没有解决的根本问题

研究团队在讨论部分深入剖析了当前AI科研系统面临的几个根本性困境，这些困境不是通过更多算力或更大模型就能解决的。

第一个困境是“拼凑创新”的问题。当前所有的AI科研系统，在生成假设时本质上都在做一件事：把训练数据和检索到的文献中已有的概念重新组合。研究团队用一个精准的公式描述了这个问题：AI生成的大多数“新想法”，其实都是“A+B→C”的形式，其中A和B是已有的概念，C是它们的组合，而不是真正的原创。

真正的科学发现需要什么？需要看到一个奇怪的实验现象，然后突然想到“这可能意味着我们对这个领域的基本假设是错的”——这种从异常现象到碘伏性假设的思维跳跃，叫做“溯因推理”。目前的AI系统无论多么强大，都缺乏真正的溯因推理能力。

第二个困境是“流水线思维”的局限。当前的AI科研系统大多被设计成线性流水线：想法→计划→实验→分析→论文，每个环节产生的输出进入下一个环节，但实验结果不会反过来修正一开始的假设和问题定义。

真正的科学研究不是这样的。一个科学家做实验、发现意外结果，然后会问“等等，这说明我最初的问题可能问错了”——这种反向迭代，才是科学进步的核心机制。研究团队把这种能力叫做“反身迭代”，指出目前几乎没有任何AI系统真正具备这个能力。AI Scientist-v2的树形搜索是一个尝试，但它只能在预设的解决方案空间内搜索，无法真正修改研究问题本身。

第三个困境是评估和影响力的矛盾。科学研究的真正价值需要时间才能体现——一篇论文被引用多少次、推动了多少后续发现、改变了多少人的工作方式，这些都需要几年甚至几十年才能看清楚。但目前所有的AI科研系统都在用即时指标来衡量自己：论文写出来了吗？实验跑通了吗？基准测试分数高吗？这种评估框架天生地偏向“产出漂亮的报告”而非“产生真实的科学价值”。

七、安全、伦理与社会影响：不能被忽视的另一面

研究团队用了相当大的篇幅讨论AI科研带来的安全风险和社会影响，因为这些问题往往被“能力展示”的光芒所掩盖。

在可靠性方面，AI科研系统依赖大型语言模型来完成每一个环节的工作。而语言模型的一个根本性问题是它可能“胡说八道”——用听起来自信的语气说出不正确的内容。在单次对话中，这是个小麻烦，但在多阶段科研流水线中，一个环节的错误会被后续环节当作真实信息接受，越滚越大。一篇错误引用可能导致一个错误假设，错误假设导致设计不当的实验，最终产出一篇看起来完整但实际上建立在沙滩上的论文。

在安全性方面，研究团队特别提到了“提示注入”攻击：恶意信息可以被嵌入到AI检索到的文献、调用的工具，或者生成的中间结果中，从而操控AI的行为方向。研究团队引用的BadSkill研究展示了一种更危险的攻击方式：通过污染AI可以调用的“技能库”（就像在AI的工具箱里放一把有毒的扳手），让AI在执行看起来正常的操作时，悄悄做一些有害的事情。

在社会影响方面，研究团队提出了三个深层担忧。第一是资源不平等：AI科研工具需要强大的算力、优质的数据和专业的基础设施，这些都集中在少数资金雄厚的机构手中。AI可能让“有钱的机构更有优势”，而不是真正让科研民主化。第二是论文工厂风险：当生成一篇“看起来像论文”的文本变得很容易，就会有人用AI批量生产低质量论文，用以冲KPI、申请经费。这种“科研成果”一旦进入引用网络和训练数据，会持续污染整个科学生态。第三是责任归属问题：当AI参与了研究的构思、设计和写作，“这篇论文是谁的成果”、“如果结论错误谁来负责”这些问题就变得非常复杂。目前学术界的规范完全是为人类研究者设计的，面对人机协作的新现实，还没有合适的制度框架来处理这些问题。

说到底，这项综述研究告诉我们一件非常重要的事：AI在科研中已经从“可选的辅助工具”变成了“工作流程的实际参与者”，这个转变已经发生了，而且不可逆转。但这个参与者目前更像是一个才华横溢但需要大量监督的实习生，而不是一个可以独当一面的成熟研究员。

归根结底，当前AI科研最大的价值，在于帮助人类科学家做得更快、覆盖更广——能读更多文献、尝试更多实验方向、写出更流畅的报告。但“判断什么值得研究”、“认定一个结论是否可信”、“在面对意外结果时重新思考整个框架”，这些最核心的科学判断能力，目前仍然是人类独有的。

这并不意味着未来永远如此。研究团队的框架本身就是一张路线图——它清晰地描述了从现在的L2走向L3需要跨越哪些关键门槛：更强的内部否决机制、更可靠的跨阶段证据追踪、在多次运行中稳定可靠的验证能力，以及真正能在证据指向错误方向时自我纠正的能力。

对普通人来说，这项研究最直接的意义在于：如果你正在使用AI工具辅助工作或学习，你应该把它当作一个需要你反复检查的助手，而不是一个可以全权委托的专家。AI的流畅输出和自信语气，并不等于可靠性。而如果你对科学发现和人类未来感兴趣，这篇综述提出的问题——如何评估AI生成的科学发现？谁该为AI参与的研究负责？如何防止低质量AI论文污染知识生态？——将在未来很长一段时间内持续引发争议和讨论。有兴趣深入了解这套完整分析框架的读者，可以通过论文编号arXiv:2605.23204查阅完整原文。

Q&A

Q1：AutoResearch框架中的L2和L3之间最关键的区别是什么？

A：L2和L3的本质区别不在于AI走完了多少个科研步骤，而在于“每一个关键决策是否还需要人类来审核”。在L2阶段，哪怕AI能串联起文献阅读、实验执行、论文撰写等多个环节，只要科学结论是否可信、研究方向是否合理、结果是否足够可靠这些判断还需要人类研究者来做，就仍处于L2。L3要求AI能在不需要人类逐步检查的前提下，产出具有科学可信度的完整研究成果。研究团队明确指出，目前没有任何系统真正达到L3。

Q2：为什么The AI Scientist这类系统仍然被归类为L2而非更高层次？

A：尽管The AI Scientist能走完从想法生成到论文产出的完整流程，但它的输出——无论是假设的合理性、实验方法的科学性，还是结论的可靠性——仍然需要人类研究者来做最终判断。它不具备真正的内部否决机制，无法在发现假设可能是错的时候自主重新定义研究问题，也无法保证在多次运行中产出一致可靠的结论。这正是L2与L3之间的关键门槛：能生成研究流程不等于能产出自主可信的科学结论。

Q3：AutoResearch综述中提出的五个评估维度中，目前最难衡量的是哪个？

A：影响力和新颖性是目前最难可靠评估的两个维度。新颖性的困难在于，没有任何方法能区分“真正的原创发现”和“看起来不一样的已有概念重组”——专家评审既慢又贵，AI自动评分又容易被表面差异迷惑。影响力的困难则来自时间：一项研究真正的价值要等几年才能看清楚，而所有现有评估系统都只能测量即时表现。这两个维度的评估缺口，导致目前的AutoResearch基准测试普遍高估了AI的科学价值，而低估了其局限性。