科研进化机器人测评:AI自主实验与反思能力深度解析

2026-05-15阅读 0热度 0
上海交通大学

上海交通大学人工智能学院联合SciLand与DP Technology的研究团队,于2026年4月在arXiv平台发布了预印本论文(编号arXiv:2604.17406),提出了名为EvoMaster的智能体框架。该框架旨在构建能够自我进化、持续学习的AI科研助手,其核心是模拟科学家的工作范式。

上海交通大学造出

科学研究的本质是一个迭代循环:提出假设、设计实验、观察结果、修正理论。这一过程往往耗时漫长。EvoMaster项目试图探索一个核心命题:能否构建一个AI系统,使其具备类似的自主迭代与自我提升能力?

EvoMaster的定位并非特定领域的专用工具,而是一个通用框架。研究者可在其基础上,通过约100行代码快速构建面向物理、化学、生物或机器学习等不同学科的AI科研智能体。在四项权威基准测试中,EvoMaster表现突出:在跨学科知识测试HLE中正确率达41.1%;在机器学习工程基准MLE-Bench Lite中奖牌率达75.8%;在复杂网络检索测试BrowseComp中达到73.3%;在前沿科学推理测试FrontierScience中达到53.3%。相较于同期增长最快的开源通用智能体OpenClaw,其相对提升幅度分别为202%、316%、159%和191%,优势显著。

一、AI做科研,真的行得通吗?

尽管AlphaFold、GNoME等AI系统在特定科学任务上取得了突破,但它们本质上仍是执行人类指令的工具。真正的“智能体科学”要求AI能自主完成从文献调研、提出假设、设计实验、执行分析到撰写报告的完整闭环,并能从每次循环中积累经验,实现持续优化。研究人员将这种范式称为“Agentic Science”,其规模化形态则是“Agentic Science at Scale”。

当前多数AI科研系统存在两大瓶颈:一是高度专业化且彼此割裂,开发新领域智能体需重复构建基础架构,成本高昂;二是缺乏持续学习能力,任务结束后经验清零,无法实现迭代进化。EvoMaster的设计目标正是为了系统性解决这两个问题。

二、打地基:让所有学科共用一套骨架

EvoMaster采用分层架构设计,以实现跨学科复用。最上层的Playground负责协调多智能体工作流;中间层的Exp管理实验全生命周期;底层的Agent驱动核心推理与工具调用循环。这种设计使得底层引擎的改进能惠及所有上层学科智能体,如同升级大楼的中央空调系统能让所有租户受益。

框架遵循模型上下文协议等业界标准,任何符合标准的工具均可无缝接入,实现了跨学科的工具共享与能力复用,大幅降低了领域适配成本。

三、让AI学会“越做越聪明”:迭代进化的核心引擎

EvoMaster将持续进化机制内置于系统核心。在Agent层面,其工作模式是一个“推理-调用工具-观察结果-自我批判”的闭环,可进行数百轮迭代,每轮都基于反思进行优化。

为解决长上下文管理难题,系统配备了智能的上下文管理器,能动态压缩历史对话,保留关键信息,确保AI在长期任务中始终聚焦核心线索。

在更高层面,Playground协调器支持多智能体以“求解者-批评者-改写者”模式协同工作,模拟学术同行评审的打磨过程,通过分工与竞争提升解决方案质量。

为保证研究的可复现性,EvoMaster将每次实验的所有参数、对话、工具调用及资源消耗完整记录于结构化的YAML配置文件和JSON日志中,支持全程回溯与精确复现。

四、在这套地基上盖起来的科研生态:SciMaster家族

基于EvoMaster框架,已衍生出名为SciMaster的系列领域智能体。ML-Master 2.0专注于自主机器学习,采用多阶段优化流水线与层次化认知缓存机制,在模拟Kaggle竞赛的测试中表现优异。X-Master面向通用科学研究,采用四阶段并行流水线处理复杂问题。Browse-Master专精深度网络信息检索,采用“规划者-执行者”双角色迭代模式。PhysMaster聚焦物理推理,X-Master 2.0强化了基于学术文献的前沿科学推理能力,EmboMaster则面向具身智能训练。目前该生态已有4个开源版本,另有3个即将发布。

五、四场“大考”,成绩单长什么样?

研究团队在统一使用GPT-5.4模型与相同工具集的条件下,对比了EvoMaster与OpenClaw在四个权威基准上的表现。

在涵盖多学科的HLE测试中,EvoMaster取得41.1%的正确率,远超OpenClaw的13.6%,其中在数学领域的优势最为显著。

在模拟真实机器学习工程的MLE-Bench Lite测试中,EvoMaster奖牌率达75.76%,相对OpenClaw(18.18%)提升316%,差距最为悬殊。其综合表现也优于其他专用机器学习智能体。

在深度网络检索测试BrowseComp中,EvoMaster以73.33%的准确率大幅领先OpenClaw的28.33%,尤其在多步推理与小众知识类任务上优势明显。

在前沿科学推理测试FrontierScience的科研任务方向,EvoMaster获得53.3%的得分,不仅显著高于OpenClaw的18.3%,也超越了直接使用基础模型(33%)及专门优化的系统(38.3%),证明了框架增强的有效性。

值得注意的是,在长达24小时的MLE-Bench测试中,EvoMaster的奖牌率随时间单调递增,直观验证了其“持续进化”能力并非概念,而是实际发生的性能提升。

六、坦诚的局限:哪里还没做到?

研究团队明确指出,EvoMaster目前的核心局限在于其运行于虚拟环境,尚无法直接操控真实的物理实验设备,如自动化合成实验室的机械臂。当前框架更擅长“动脑子”的推理、编码与信息处理任务,而非“动手”操作实体仪器。将框架接口延伸至物理设备控制协议,已被列为下一步重点研究方向。

EvoMaster的本质,是将科学家的工作方式——持续试错、经验积累、同行协作与批判性反思——编码为AI的运行逻辑。短期内,该框架有望加速药物发现、材料科学等领域的研发进程。长期来看,若AI能跨学科并行开展自主研究,科学进步的范式与速度可能被重塑。届时,人类科学家的核心角色或将更侧重于提出关键问题、判断研究价值与阐释科学意义。完整技术细节可查阅arXiv论文2604.17406。

Q&A

Q1:EvoMaster和普通的AI聊天工具有什么本质区别?

A:普通对话AI每次交互独立,不具备跨会话的学习能力。EvoMaster的核心区别在于其内置了持续进化机制,能在单次长周期科研任务中,通过执行、观察、反思、调整的闭环不断积累经验并应用于后续步骤,实现性能的持续提升,这更贴近真实科研工作的迭代特性。

Q2:EvoMaster为什么能用100行代码就支持一个新学科?

A:EvoMaster在框架层面预先实现了所有学科通用的基础设施,包括工具调用、记忆管理、实验协调与日志记录。开发者仅需专注于编写特定领域的业务逻辑,如同在完备的大楼中进行内部装修,无需从头搭建地基。其对行业标准接口的支持也使得现有工具可即插即用,极大减少了重复开发。

Q3:FrontierScience测试中EvoMaster的53.3%是什么水平?

A:在由博士级科学家设计的FrontierScience科研任务中,EvoMaster的53.3%得分意味着其在这些高难度问题上平均能获得过半分数。作为对比,直接使用GPT-5.4模型得分为33%,专门优化的Muse Spark系统为38.3%,而通用智能体OpenClaw仅为18.3%。这表明,框架层面的迭代推理与学术工具集成,能将基础模型的性能提升60%以上。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策