科研进化机器人测评：AI自主实验与反思能力深度解析

2026-05-15阅读 0热度 0

上海交通大学

上海交通大学人工智能学院联合SciLand与DP Technology的研究团队，于2026年4月在arXiv平台发布了预印本论文（编号arXiv:2604.17406），提出了名为EvoMaster的智能体框架。该框架旨在构建能够自我进化、持续学习的AI科研助手，其核心是模拟科学家的工作范式。

科学研究的本质是一个迭代循环：提出假设、设计实验、观察结果、修正理论。这一过程往往耗时漫长。EvoMaster项目试图探索一个核心命题：能否构建一个AI系统，使其具备类似的自主迭代与自我提升能力？

EvoMaster的定位并非特定领域的专用工具，而是一个通用框架。研究者可在其基础上，通过约100行代码快速构建面向物理、化学、生物或机器学习等不同学科的AI科研智能体。在四项权威基准测试中，EvoMaster表现突出：在跨学科知识测试HLE中正确率达41.1%；在机器学习工程基准MLE-Bench Lite中奖牌率达75.8%；在复杂网络检索测试BrowseComp中达到73.3%；在前沿科学推理测试FrontierScience中达到53.3%。相较于同期增长最快的开源通用智能体OpenClaw，其相对提升幅度分别为202%、316%、159%和191%，优势显著。

一、AI做科研，真的行得通吗？

尽管AlphaFold、GNoME等AI系统在特定科学任务上取得了突破，但它们本质上仍是执行人类指令的工具。真正的“智能体科学”要求AI能自主完成从文献调研、提出假设、设计实验、执行分析到撰写报告的完整闭环，并能从每次循环中积累经验，实现持续优化。研究人员将这种范式称为“Agentic Science”，其规模化形态则是“Agentic Science at Scale”。

当前多数AI科研系统存在两大瓶颈：一是高度专业化且彼此割裂，开发新领域智能体需重复构建基础架构，成本高昂；二是缺乏持续学习能力，任务结束后经验清零，无法实现迭代进化。EvoMaster的设计目标正是为了系统性解决这两个问题。

二、打地基：让所有学科共用一套骨架

EvoMaster采用分层架构设计，以实现跨学科复用。最上层的Playground负责协调多智能体工作流；中间层的Exp管理实验全生命周期；底层的Agent驱动核心推理与工具调用循环。这种设计使得底层引擎的改进能惠及所有上层学科智能体，如同升级大楼的中央空调系统能让所有租户受益。

框架遵循模型上下文协议等业界标准，任何符合标准的工具均可无缝接入，实现了跨学科的工具共享与能力复用，大幅降低了领域适配成本。

三、让AI学会“越做越聪明”：迭代进化的核心引擎

EvoMaster将持续进化机制内置于系统核心。在Agent层面，其工作模式是一个“推理-调用工具-观察结果-自我批判”的闭环，可进行数百轮迭代，每轮都基于反思进行优化。

为解决长上下文管理难题，系统配备了智能的上下文管理器，能动态压缩历史对话，保留关键信息，确保AI在长期任务中始终聚焦核心线索。

在更高层面，Playground协调器支持多智能体以“求解者-批评者-改写者”模式协同工作，模拟学术同行评审的打磨过程，通过分工与竞争提升解决方案质量。

为保证研究的可复现性，EvoMaster将每次实验的所有参数、对话、工具调用及资源消耗完整记录于结构化的YAML配置文件和JSON日志中，支持全程回溯与精确复现。

四、在这套地基上盖起来的科研生态：SciMaster家族

基于EvoMaster框架，已衍生出名为SciMaster的系列领域智能体。ML-Master 2.0专注于自主机器学习，采用多阶段优化流水线与层次化认知缓存机制，在模拟Kaggle竞赛的测试中表现优异。X-Master面向通用科学研究，采用四阶段并行流水线处理复杂问题。Browse-Master专精深度网络信息检索，采用“规划者-执行者”双角色迭代模式。PhysMaster聚焦物理推理，X-Master 2.0强化了基于学术文献的前沿科学推理能力，EmboMaster则面向具身智能训练。目前该生态已有4个开源版本，另有3个即将发布。

五、四场“大考”，成绩单长什么样？

研究团队在统一使用GPT-5.4模型与相同工具集的条件下，对比了EvoMaster与OpenClaw在四个权威基准上的表现。

在涵盖多学科的HLE测试中，EvoMaster取得41.1%的正确率，远超OpenClaw的13.6%，其中在数学领域的优势最为显著。

在模拟真实机器学习工程的MLE-Bench Lite测试中，EvoMaster奖牌率达75.76%，相对OpenClaw（18.18%）提升316%，差距最为悬殊。其综合表现也优于其他专用机器学习智能体。

在深度网络检索测试BrowseComp中，EvoMaster以73.33%的准确率大幅领先OpenClaw的28.33%，尤其在多步推理与小众知识类任务上优势明显。

在前沿科学推理测试FrontierScience的科研任务方向，EvoMaster获得53.3%的得分，不仅显著高于OpenClaw的18.3%，也超越了直接使用基础模型（33%）及专门优化的系统（38.3%），证明了框架增强的有效性。

值得注意的是，在长达24小时的MLE-Bench测试中，EvoMaster的奖牌率随时间单调递增，直观验证了其“持续进化”能力并非概念，而是实际发生的性能提升。

六、坦诚的局限：哪里还没做到？

研究团队明确指出，EvoMaster目前的核心局限在于其运行于虚拟环境，尚无法直接操控真实的物理实验设备，如自动化合成实验室的机械臂。当前框架更擅长“动脑子”的推理、编码与信息处理任务，而非“动手”操作实体仪器。将框架接口延伸至物理设备控制协议，已被列为下一步重点研究方向。

EvoMaster的本质，是将科学家的工作方式——持续试错、经验积累、同行协作与批判性反思——编码为AI的运行逻辑。短期内，该框架有望加速药物发现、材料科学等领域的研发进程。长期来看，若AI能跨学科并行开展自主研究，科学进步的范式与速度可能被重塑。届时，人类科学家的核心角色或将更侧重于提出关键问题、判断研究价值与阐释科学意义。完整技术细节可查阅arXiv论文2604.17406。

Q&A

Q1：EvoMaster和普通的AI聊天工具有什么本质区别？

A：普通对话AI每次交互独立，不具备跨会话的学习能力。EvoMaster的核心区别在于其内置了持续进化机制，能在单次长周期科研任务中，通过执行、观察、反思、调整的闭环不断积累经验并应用于后续步骤，实现性能的持续提升，这更贴近真实科研工作的迭代特性。

Q2：EvoMaster为什么能用100行代码就支持一个新学科？

A：EvoMaster在框架层面预先实现了所有学科通用的基础设施，包括工具调用、记忆管理、实验协调与日志记录。开发者仅需专注于编写特定领域的业务逻辑，如同在完备的大楼中进行内部装修，无需从头搭建地基。其对行业标准接口的支持也使得现有工具可即插即用，极大减少了重复开发。

Q3：FrontierScience测试中EvoMaster的53.3%是什么水平？

A：在由博士级科学家设计的FrontierScience科研任务中，EvoMaster的53.3%得分意味着其在这些高难度问题上平均能获得过半分数。作为对比，直接使用GPT-5.4模型得分为33%，专门优化的Muse Spark系统为38.3%，而通用智能体OpenClaw仅为18.3%。这表明，框架层面的迭代推理与学术工具集成，能将基础模型的性能提升60%以上。