2026权威报告:16所顶尖机构测评AI替代科学家可行性
当看到这份由华中科技大学、里海大学、清华大学、武汉大学、Salesforce Research、Squirrel AI Learning、西北大学、上海交通大学、加州大学圣地亚哥分校、香港中文大学、伊利诺伊大学芝加哥分校、斯坦福大学、Google Cloud AI Research、Recursive Superintelligence和微软研究院等十六家顶尖机构联合完成的综述时,你大概会意识到:这绝对不是一篇普通的论文。它以一个预印本的形式发布于2026年5月,编号为arXiv:2605.23204,研究方向直指计算机人工智能领域(cs.AI)。
科学研究这件事,在人类历史上一直是一项极其耗费心智的工作。一位科学家要花几个月甚至几年的时间,在浩如烟海的文献中寻找线索,提出假设,设计实验,分析数据,最后才能写出一篇论文。这个过程漫长、费力,充满了失败和反复。
近年来,人工智能技术开始悄悄渗入这个领域。ChatGPT可以帮你读文献、写草稿,GitHub Copilot可以帮你写实验代码,一些更复杂的系统甚至声称能够“自动做科学研究”。这听起来像科幻小说,但确实已经发生了。
这篇综述的意义在于,它是迄今为止对“AI辅助科学研究自动化”这一领域最系统、最全面的梳理与分析。研究团队没有简单地说“AI很厉害”或者“AI还不行”,而是提供了一套精密的分析框架,帮助所有人看清楚:AI到底在科学研究的哪些环节已经能帮上忙,在哪些环节还远远不够,以及未来的路该怎么走。
一、从“帮手”到“研究者”:AI在科研中的五个层级
理解这篇研究,可以把科学研究的过程比作一次复杂的探险之旅。这次探险包含五个阶段:出发前查地图(阅读文献)、制定路线(提出假设和计划)、实际出发走路(做实验)、评估是否走对了路(验证和审查)、最后写游记分享给所有人(撰写论文)。
研究团队把AI在这次探险中扮演的角色,划分成了五个层次,从L0到L4。
最基础的L0是“纯人类探险”——AI根本没有参与,所有的地图查阅、路线规划、行走和游记撰写,全部由人类探险家自己完成。这对应的是传统的科学研究方式。
L1是“人类主导,AI当向导”。这个阶段,探险家还是自己做所有决定,但AI可以帮你快速翻阅地图、草拟行程表、提供一些建议。ChatGPT、Elicit、Semantic Scholar这类工具就在这个层次发挥作用。人类牢牢掌握着方向盘,AI只是一个聪明的助手。
L2是“AI能走路,但人类要检查每一步”。这个阶段,AI可以实际执行一些任务了——比如自己去找资料、写代码、跑实验,但每次走完一段路,都需要人类来确认“这条路走对了吗?”。像The AI Scientist、AI co-scientist这样的系统就在这个层次运作。人类不用亲自走每一步,但必须随时审核AI的进度。
L3是“AI主导探险,人类在紧急情况下才介入”。这个层次的AI可以自己规划路线、选择方向、走完大部分旅程,只有在遇到特别复杂或者危险的情况时,才会请人类帮忙。研究团队特别指出,目前这个层次还没有任何系统真正达到——它代表的是一个更严格的自主科研前沿,而不是随便一个连接了多个步骤的系统就能宣称自己达到了。
L4是“AI完全自主探险”,人类根本不需要出现在旅程中,AI从制定目标到写出游记全程独立完成。研究团队明确表示,这个层次目前还只是一个遥远的愿景,现实中根本没有系统接近这个标准。
这五个层次构成了研究团队提出的“AutoResearch”(自动化科学研究)框架的核心。而L1到L2的这段区间,研究团队给了它一个特别的名字——“Vibe Research”,指的是那种人工智能帮你扩展了能力、但你始终坐在驾驶座上的研究方式。这个词很形象:你感受到了AI带来的氛围和动力,但旅途的每一个关键决定还是你来做。
二、探险的五大阶段:AI在每个环节能做什么
研究团队把科研的整个流程拆解成五个具体的技术阶段,就像把一次探险拆解成装备准备、路线规划、实际徒步、安全评估和撰写报告五个步骤一样。
第一阶段:查地图——文献阅读与研究基础
每一次科学探险都要先看地图,弄清楚前人走过哪里、发现了什么、哪里还没有人去过。在科研中,这对应的是阅读大量学术文献的过程。
AI在这个阶段已经相当有用了。研究团队将目前的文献处理技术分成了四种不同的“地图获取方式”。
最简单的是“搜索式”——就像用关键词在地图上搜索目的地,AI帮你找到相关论文,总结关键信息,给你一个大致的印象。LitLLM和STORM是这类工具的代表,它们能快速给出本地化的研究背景,但这张“地图”相对粗糙,很多细节可能被丢失。
更深入一层的是“证据式”——这类系统不只是找到论文,还会明确标注“这个结论来自哪篇论文的哪段话”,就像给地图上的每一条路都标注了信息来源。OpenScholar和PaperQA2是这方面的代表,它们让AI的回答有了可以追溯的证据链。
“结构式”处理则更进一步,它把不同论文之间的关系(比如哪些方法互相支持、哪些结论彼此矛盾)整理成一张知识网络图,就像把零散的地图碎片拼成一张完整的地形图。SciAgents是这方面的代表性系统。
最高级的是“记忆式”,这类系统会把读过的所有文献整理成一个可以反复查询的知识库,就像把所有地图信息存入一个数据库,后续探险的任何阶段都可以随时调取。The AI Scientist和AI Scientist-v2中包含了这类组件。
研究团队指出,目前文献处理领域真正的瓶颈不是“找不到论文”,而是“无法保证找到的信息在后续使用中依然准确、可追溯”。这就好像你的地图信息可能在传递过程中失真了,而你并不知道。
第二阶段:规划路线——假设形成与研究计划
看完地图之后,探险家需要决定去哪里、走哪条路。在科研中,这对应的是提出研究假设和制定实验计划的过程。
研究团队发现,目前AI在这个阶段有四种不同的工作方式。
最直接的是“提案式”——AI直接生成一个或几个研究方向,然后进行简单的筛选。ResearchAgent就是这样工作的,它能基于文献自动提出研究问题、方法和实验设计。这种方式简洁高效,但问题是选择太少,“谁来否决坏主意”的机制比较弱。
“多智能体辩论式”则更有意思。这类系统模拟了一个团队讨论的过程:不同的AI角色分别提出假设、互相批评、讨论优劣,最后整合出一套更成熟的研究方向。AI co-scientist和SciSciGPT采用的就是这种策略,就像让多个探险家各自提出路线方案,然后一起讨论选哪条。
“结构引导式”则依托知识网络图来寻找研究空白,就像在地形图上找到没有探险家走过的空白区域,那里最可能有新发现。Scideator和SciAgents在这方面表现突出。
“搜索进化式”是最系统化的方法:AI不只提出一个计划,而是生成很多个候选方案,给每个方案打分,淘汰差的,保留好的,再基于好的方案继续进化,直到找到最优解。AI Scientist-v2中的树形搜索和AlphaEvolve都采用了这种思路,就像让很多支探险队同时出发走不同路线,然后选出表现最好的那支继续前进。
研究团队强调,这个阶段真正的难题不是“生成多少想法”,而是“如何在投入大量资源之前,就把不靠谱的想法给淘汰掉”。目前大多数系统在这方面做得还不够好。
第三阶段:实际走路——实验执行与工具使用
光有地图和计划还不够,最终还是要真正上路走。在科研中,这对应的是实际运行实验、使用各种工具获取数据的过程。
这个阶段,AI工作的“地形”差异很大。
在计算机科学领域,AI可以直接操作代码仓库、运行程序、记录错误并修复——就像在一个完全数字化的地形上探险,路况清晰,反馈即时。OpenHands、Aider、SWE-agent就是专门做这件事的工具,The AI Scientist系列系统中的实验执行部分也依赖这类基础设施。
在需要使用外部专业工具的领域,AI则充当一个“工具协调员”,它知道什么时候该用什么工具,就像探险队带了望远镜、GPS、温度计各种设备,AI负责告诉每个队员什么时候用什么设备。ChemCrow(化学领域)、Biomni(生物医学领域)就是这类系统的代表。
在物理化学领域,甚至出现了AI指挥机器人在实验室里做实验的系统。A-Lab可以自主完成无机材料的合成实验,AI Chemist能读论文、指挥机器人做化学实验并分析结果。这就像AI不仅规划了探险路线,还真的在用机器人手臂去翻山越岭。
还有一类是“人类把关式”执行——AI可以提出每一步要做什么,但执行前必须经过人类专家的安全检查和批准,特别是在可能有风险或代价高昂的操作上。AI co-scientist、FreePhD、Agent Laboratory都采用了这种模式,确保AI的行动在人类监督的范围内进行。
研究团队指出,这个阶段最容易被误解的一点是:能运行的代码不等于有意义的科学实验。一个程序能跑起来,并不代表它在测试一个真正有价值的假设,也不代表实验设计是合理的。
第四阶段:检查路线——反馈、验证与审查
走了一段路之后,探险家需要停下来问:我走的方向对吗?我有没有迷路?这个地方真的是我要去的目的地吗?在科研中,这对应的是对实验结果的验证、审查和批判性评估。
研究团队认为,这是当前AI科研系统最薄弱的环节,也是阻止AI从L2迈向L3的最大障碍。
最直接的验证方式是“重跑实验”——把实验再做一遍,看看结果是否稳定,或者换一个基准线来对比,看看结果是否真的比别人好。PaperBench评测系统就是专门测试AI能否在这个层面做好验证的工具。这种方式的优点是直接,缺点是只能发现实现层面的问题,无法评估科学价值层面的问题。
更深入的是“批评式验证”——有专门的AI模块(或多个AI角色)对实验结果提出批评性意见,就像让探险队里的质疑者不断追问“你确定这条路是对的吗?有没有更好的方案?”。LLM-REVal研究了这种多轮审查和修订的动态过程。这种方式能发现更深层的问题,但AI自身的批评能力有局限,有时只是在挑语言风格而非真正的科学问题。
最高级的验证是“专家或时间检验”——把结论拿给真正的领域专家看,或者等待时间的检验(比如能否被后续研究复现或引用)。FIRE-Bench设计了让AI重新发现已知科学结论的测试任务,这种测试比简单的代码运行要求高得多。AIRS-Bench则测试AI在完整科研流程中的表现,把薄弱环节暴露出来。
研究团队强调,验证阶段最核心的能力不是“给结果打分”,而是“有能力拒绝坏结果”。目前大多数AI系统缺乏真正的“否决机制”——它们很难在自己生成了一个看起来不错的结果之后,主动说“其实这个结论是错的,我们需要重来”。
第五阶段:写游记——报告撰写与知识传播
探险结束后,要把经历写成游记分享给所有人。在科研中,这对应的是撰写论文、整理数据图表、回应审稿人意见的过程。
这个阶段AI相对表现最好,因为写作本来就是语言模型的强项。
最常见的是“草稿式写作”——AI根据已有的数据和分析,生成论文各章节的草稿。LitLLM擅长写参考文献综述部分,The AI Scientist可以生成完整的论文草稿,AI Scientist-v2甚至能生成符合研讨会要求水准的论文。
“对话式写作”则更进一步:AI不只是写初稿,还能模拟审稿人的意见,自动生成“作者回应”,并根据这些意见修改论文。LLM-REVal研究了这种多轮对话式的论文修改过程。
“证据链接式写作”是最理想的形态:论文的每一个结论都和具体的数据、代码、图表直接关联,读者可以顺着文字的脉络,一路追溯到原始证据。PaperBench在评估AI时,就特别看重这种“写了什么”和“数据支持什么”之间的一致性。
研究团队指出,写作阶段最大的风险是“文字过于流畅,掩盖了证据不足的问题”。AI能生成非常漂亮的论文,但漂亮的文字和可靠的科学结论是两回事。
三、AI科研的历史脉络:从机器人科学家到自主研究流水线
为了理解当前的状况,研究团队梳理了AI参与科学研究的整个历史进程,就像回溯一次漫长探险旅途上的每一个重要营地。
最早期的探索出现在2004年前后。英国科学家建造了一个名叫“Adam”的机器人科学家,它能在功能基因组学领域自动提出假设、设计实验、运行实验、分析结果。同一时期,AI Feynman能从数据中自动发现物理规律,用符号推导出类似开普勒定律这样的公式。这些早期系统展示了“科研某些环节可以自动化”的可能性,但它们都非常局限,只能在极其狭窄的领域内运作。
2022年到2023年间,随着大型语言模型的崛起,AI的文献处理能力大幅提升。BioPlanner能帮助生物学家自动规划实验方案,LitLLM能生成高质量的文献综述,Coscientist连接语言模型和化学实验设备,在有机化学领域实现了一定程度的自主实验。这个时期对应的是“AI开始能执行单个科研任务”的阶段。
2024年是一个重要的分水岭。The AI Scientist横空出世,第一次展示了一个系统能够从头到尾走完整个科研流程:从产生想法、写代码、跑实验、分析数据,到撰写论文、模拟同行评审。同年,SciAgents把多智能体协作引入科学推理,A-Lab实现了无机材料的闭环自主合成。Research Agent、OpenScholar、PaperQA2让文献辅助研究进入了更成熟的阶段。
2025年到2026年,这个领域进入了快速扩张期。AI Scientist-v2、AI co-scientist、FreePhD、Robin、Agent Laboratory、OmniScientist、ARIS、NanoResearch等系统相继出现,形成了一个从单体系统到协作生态的多元化格局。与此同时,专门评测AI科研能力的基准测试也大量涌现:ResearchBench、AIRS-Bench、FIRE-Bench、PaperBench等,让这个领域有了更清晰的能力边界参照。
研究团队用一个简洁的比喻概括了这段历史:AI在科研中的角色,从“一个聪明的助手”,演变成“一个能独立完成某些任务的执行者”,再到“一个能把多个任务串联成流水线的协调者”。但在这三个身份之间,有着巨大的差距,而且每次跨越都比看起来要难得多。
四、评估AI科研:五把不同的尺子
研究团队提出了一套评估AI科研系统的框架,包含五个维度,就像用五把不同的尺子来丈量一个探险队的能力,每把尺子测量的是完全不同的东西。
新颖性测量的是“这个发现是真正的新大陆,还是已经有人去过的地方”。真正的新颖性不是“看起来跟别人不一样”,而是能打开新的研究方向,让同行觉得“这值得跟进”。目前的评估方法要么依赖专家判断(慢、贵、不稳定),要么依赖AI自动打分(容易被表面差异迷惑)。研究团队认为,目前没有任何评估方法能真正可靠地判断AI生成想法的新颖性。
有效性测量的是“这条路真的能到达目的地,还是看起来像一条路”。这包括研究方法是否合理、实验设计是否恰当、从数据到结论的推理是否站得住脚。BioDSA-1K专门测试AI在生物医学领域的假设验证能力,PaperBench测试AI能否真正复现已有论文的实验,SciReplicate-Bench则测试AI能否在NLP领域实现算法的完整复现。
影响力测量的是“这次探险发现了什么值得载入史册的东西”。但影响力是一个需要时间才能看清楚的维度——一项研究被引用多少次、被多少后续研究采用、真正改变了多少人的工作方式,这些都需要几年甚至更长时间才能看出来。目前所有评估体系都只能测量短期表现,无法评估长期影响。
可靠性测量的是“这支探险队每次出发都能到达同一个目的地,还是结果飘忽不定”。AI系统的一个严重问题是,同样的问题换个问法、换个随机种子,可能得到完全不同的结果。AIRS-Bench和FIRE-Bench都特别强调了这一维度。一次漂亮的展示远远不够,需要在反复运行、不同条件下都稳定可靠。
来源可追溯性测量的是“你能说清楚这个结论是从哪里来的吗”。这是科学可信度的基础——如果一个AI说“X导致Y”,你必须能追溯到它是基于哪些证据、使用了哪些工具、经过了哪些推理步骤才得出这个结论。CiteME专门测试AI能否准确引用来源,LitSearch测试文献检索的质量如何影响后续可信度,AI Agent Index则记录了已部署AI系统的透明度和可追溯性。
研究团队特别警告了一个常见的评估误区:用一个维度的好成绩来暗示其他维度也很好。比如,一个系统在“写出漂亮论文”方面得了高分,不代表它的结论有可靠的证据支撑;一个系统能稳定跑完完整流程,不代表它的研究方向有真正的科学价值。
五、各领域的真实现状:哪里走得快,哪里走得慢
研究团队发现,AI在科研中的自主程度,在不同领域之间存在巨大差异。
计算机科学和人工智能领域是AI辅助科研最成熟的地方。原因很简单:这个领域的研究对象本来就是数字化的——代码可以直接运行,实验结果可以立刻看到,失败了可以立刻重来。The AI Scientist、AI Scientist-v2、Agent Laboratory、NanoResearch、ARIS都专注于这个领域,已经能相当流畅地从想法生成到论文产出走完整个流程。但即便在这个最有利的领域,研究团队也指出,AI仍然很难判断“什么问题值得研究”、“这个结果是否真的重要”,以及“什么时候应该放弃一个没有前途的方向”。
物理学和工程领域处于中间位置。在可以用模拟和数值计算来验证假设的子领域(比如计算物理、量子设备),AI已经能完成不少有实质意义的工作。AI Feynman可以从数据中发现物理规律,PhysMaster能处理理论物理的研究任务,QuantumAgent SDL能为量子计算设备进行闭环校准实验。但在需要实际搭建物理装置、面对真实仪器误差和环境干扰的实验物理领域,AI的自主程度就大打折扣了。
化学和材料科学是实验性领域中走得最快的。这里有一个独特的优势:化学反应可以用结构化的语言表达(比如分子图、反应方程式),可以设计标准化的机器人实验流程。A-Lab已经能自主合成无机材料,AI Chemist能读文献然后让机器人做实验,GNoME用计算方法筛选出了大量新的稳定材料候选。研究团队认为,在边界清晰、搜索空间有限的子任务上,这个领域已经接近了较高自主程度,但在复杂的开放式探索中,仍然受到实验室基础设施、可重复性和跨实验室验证等问题的制约。
生物学和生物医学领域正在快速追赶,但情况更复杂。CellVoyager能自主分析单细胞RNA测序数据,BioAutomata能做代谢工程的闭环优化,BioMARS能协调实验室机器人做生物实验,Genesis能推进系统生物学模型的自动化改进。但生物系统本身的复杂性——不同细胞、不同个体、不同实验室之间的巨大差异——使得“可靠复现”在这个领域极其困难。任何AI在这个领域取得的进展,都需要更大量的验证。
医学和临床研究领域的自主程度相对较低,原因不是技术问题,而是伦理和责任问题。AI在系统综述、文献整理、证据合成等纯文献处理任务上已经相当有用:TrialMind能自动化临床系统综述的多个步骤,MetaMind能做网络荟萃分析,SOLES能持续更新证据综述。但一旦涉及到“这对真实患者意味着什么”,人类医生的判断和责任就必不可少,任何AI都无法也不应该替代。
经济学和社会科学领域则面临另一种困难。这些领域的研究对象是人类社会,而社会现象的因果关系极其复杂,往往没有明确的对错之分。AI可以处理大量文献、整理数据、运行统计分析,但“这个结论是否真的揭示了因果关系”、“这个结论在不同文化背景下还成立吗”这类判断,目前AI完全无法独立完成。HLER代表了这个领域的实践尝试:在人类监督下,AI协助完成数据处理、假设生成和计量经济学分析,但每个关键决策点都有人类经济学家把关。
地球和环境科学领域有丰富的数字化数据(卫星图像、气候模拟、地球物理记录),这为AI提供了很好的作业基础。EarthLink能协助气候科研工作流程,TianJi能探索大气物理机制,AutoClimDS能整合气候数据并自动分析。但地球系统的特殊性在于:它不像实验室那样可以反复重现,不同气候事件只发生一次,而且验证一个气候假设可能需要等待几十年的观测数据。
具身机器人领域则代表了一种特殊的情况:这里的“科研”本身就是在开发AI,所以AI辅助研究的目标是加速AI本身的研发。EmbodiedClaw能自动化机器人开发的工作流程,RoboClaw能支持机器人的长期自主学习,RoboTwin和RoboTwin 2.0能批量生成机器人训练数据和测试任务。这个领域走得比较快,但研究团队指出,这里的“自主”主要体现在“加速研究工具的生产”,而不是真正意义上的“自主科学发现”。
六、AI科研的深层困境:三个还没有解决的根本问题
研究团队在讨论部分深入剖析了当前AI科研系统面临的几个根本性困境,这些困境不是通过更多算力或更大模型就能解决的。
第一个困境是“拼凑创新”的问题。当前所有的AI科研系统,在生成假设时本质上都在做一件事:把训练数据和检索到的文献中已有的概念重新组合。研究团队用一个精准的公式描述了这个问题:AI生成的大多数“新想法”,其实都是“A+B→C”的形式,其中A和B是已有的概念,C是它们的组合,而不是真正的原创。
真正的科学发现需要什么?需要看到一个奇怪的实验现象,然后突然想到“这可能意味着我们对这个领域的基本假设是错的”——这种从异常现象到碘伏性假设的思维跳跃,叫做“溯因推理”。目前的AI系统无论多么强大,都缺乏真正的溯因推理能力。
第二个困境是“流水线思维”的局限。当前的AI科研系统大多被设计成线性流水线:想法→计划→实验→分析→论文,每个环节产生的输出进入下一个环节,但实验结果不会反过来修正一开始的假设和问题定义。
真正的科学研究不是这样的。一个科学家做实验、发现意外结果,然后会问“等等,这说明我最初的问题可能问错了”——这种反向迭代,才是科学进步的核心机制。研究团队把这种能力叫做“反身迭代”,指出目前几乎没有任何AI系统真正具备这个能力。AI Scientist-v2的树形搜索是一个尝试,但它只能在预设的解决方案空间内搜索,无法真正修改研究问题本身。
第三个困境是评估和影响力的矛盾。科学研究的真正价值需要时间才能体现——一篇论文被引用多少次、推动了多少后续发现、改变了多少人的工作方式,这些都需要几年甚至几十年才能看清楚。但目前所有的AI科研系统都在用即时指标来衡量自己:论文写出来了吗?实验跑通了吗?基准测试分数高吗?这种评估框架天生地偏向“产出漂亮的报告”而非“产生真实的科学价值”。
七、安全、伦理与社会影响:不能被忽视的另一面
研究团队用了相当大的篇幅讨论AI科研带来的安全风险和社会影响,因为这些问题往往被“能力展示”的光芒所掩盖。
在可靠性方面,AI科研系统依赖大型语言模型来完成每一个环节的工作。而语言模型的一个根本性问题是它可能“胡说八道”——用听起来自信的语气说出不正确的内容。在单次对话中,这是个小麻烦,但在多阶段科研流水线中,一个环节的错误会被后续环节当作真实信息接受,越滚越大。一篇错误引用可能导致一个错误假设,错误假设导致设计不当的实验,最终产出一篇看起来完整但实际上建立在沙滩上的论文。
在安全性方面,研究团队特别提到了“提示注入”攻击:恶意信息可以被嵌入到AI检索到的文献、调用的工具,或者生成的中间结果中,从而操控AI的行为方向。研究团队引用的BadSkill研究展示了一种更危险的攻击方式:通过污染AI可以调用的“技能库”(就像在AI的工具箱里放一把有毒的扳手),让AI在执行看起来正常的操作时,悄悄做一些有害的事情。
在社会影响方面,研究团队提出了三个深层担忧。第一是资源不平等:AI科研工具需要强大的算力、优质的数据和专业的基础设施,这些都集中在少数资金雄厚的机构手中。AI可能让“有钱的机构更有优势”,而不是真正让科研民主化。第二是论文工厂风险:当生成一篇“看起来像论文”的文本变得很容易,就会有人用AI批量生产低质量论文,用以冲KPI、申请经费。这种“科研成果”一旦进入引用网络和训练数据,会持续污染整个科学生态。第三是责任归属问题:当AI参与了研究的构思、设计和写作,“这篇论文是谁的成果”、“如果结论错误谁来负责”这些问题就变得非常复杂。目前学术界的规范完全是为人类研究者设计的,面对人机协作的新现实,还没有合适的制度框架来处理这些问题。
说到底,这项综述研究告诉我们一件非常重要的事:AI在科研中已经从“可选的辅助工具”变成了“工作流程的实际参与者”,这个转变已经发生了,而且不可逆转。但这个参与者目前更像是一个才华横溢但需要大量监督的实习生,而不是一个可以独当一面的成熟研究员。
归根结底,当前AI科研最大的价值,在于帮助人类科学家做得更快、覆盖更广——能读更多文献、尝试更多实验方向、写出更流畅的报告。但“判断什么值得研究”、“认定一个结论是否可信”、“在面对意外结果时重新思考整个框架”,这些最核心的科学判断能力,目前仍然是人类独有的。
这并不意味着未来永远如此。研究团队的框架本身就是一张路线图——它清晰地描述了从现在的L2走向L3需要跨越哪些关键门槛:更强的内部否决机制、更可靠的跨阶段证据追踪、在多次运行中稳定可靠的验证能力,以及真正能在证据指向错误方向时自我纠正的能力。
对普通人来说,这项研究最直接的意义在于:如果你正在使用AI工具辅助工作或学习,你应该把它当作一个需要你反复检查的助手,而不是一个可以全权委托的专家。AI的流畅输出和自信语气,并不等于可靠性。而如果你对科学发现和人类未来感兴趣,这篇综述提出的问题——如何评估AI生成的科学发现?谁该为AI参与的研究负责?如何防止低质量AI论文污染知识生态?——将在未来很长一段时间内持续引发争议和讨论。有兴趣深入了解这套完整分析框架的读者,可以通过论文编号arXiv:2605.23204查阅完整原文。
Q&A
Q1:AutoResearch框架中的L2和L3之间最关键的区别是什么?
A:L2和L3的本质区别不在于AI走完了多少个科研步骤,而在于“每一个关键决策是否还需要人类来审核”。在L2阶段,哪怕AI能串联起文献阅读、实验执行、论文撰写等多个环节,只要科学结论是否可信、研究方向是否合理、结果是否足够可靠这些判断还需要人类研究者来做,就仍处于L2。L3要求AI能在不需要人类逐步检查的前提下,产出具有科学可信度的完整研究成果。研究团队明确指出,目前没有任何系统真正达到L3。
Q2:为什么The AI Scientist这类系统仍然被归类为L2而非更高层次?
A:尽管The AI Scientist能走完从想法生成到论文产出的完整流程,但它的输出——无论是假设的合理性、实验方法的科学性,还是结论的可靠性——仍然需要人类研究者来做最终判断。它不具备真正的内部否决机制,无法在发现假设可能是错的时候自主重新定义研究问题,也无法保证在多次运行中产出一致可靠的结论。这正是L2与L3之间的关键门槛:能生成研究流程不等于能产出自主可信的科学结论。
Q3:AutoResearch综述中提出的五个评估维度中,目前最难衡量的是哪个?
A:影响力和新颖性是目前最难可靠评估的两个维度。新颖性的困难在于,没有任何方法能区分“真正的原创发现”和“看起来不一样的已有概念重组”——专家评审既慢又贵,AI自动评分又容易被表面差异迷惑。影响力的困难则来自时间:一项研究真正的价值要等几年才能看清楚,而所有现有评估系统都只能测量即时表现。这两个维度的评估缺口,导致目前的AutoResearch基准测试普遍高估了AI的科学价值,而低估了其局限性。
