复旦自进化Harness工程实战：GPT-5.4性能提升7%的深度测评

2026-05-20阅读 0热度 0

全球排名

2026年，Harness Engineering（智能体框架工程）已从技术概念跃升为行业核心议题。OpenAI、Anthropic、LangChain等机构的技术博客，以及OpenClaw、Hermes Agent等项目的兴起，共同印证了这一趋势。行业共识日益清晰：大模型潜力的深度挖掘，正越来越依赖于一套精密的、工程化的外部框架体系。

然而，Harness的开发与优化本身就是一个复杂的系统工程，必须结合模型特性与具体任务环境进行设计。当模型能力以月为单位快速迭代，任务场景持续向长尾领域扩展时，Harness的演进却仍高度依赖人工经验与试错。这引出了一个核心命题：在Harness Engineering的迭代闭环中，哪些环节可以实现自动化？我们能否让Harness具备从经验中自我学习并持续优化的能力？

近期，复旦大学、北京大学与上海奇绩智峰的研究团队提出了一套名为Agentic Harness Engineering (AHE)的解决方案。其核心在于，通过一套以可观测性为驱动的自动化方法，端到端地贯穿Harness工程全流程，旨在最大化释放模型的自主性与能动性。

论文标题：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
论文链接：arxiv.org/abs/2604.25850
代码仓库：github.com/china-qijizhifeng/agentic-Harness-engineering

实验数据表明，在GPT-5.4模型上，AHE将Coding Agent在Terminal-Bench 2基准测试的分数从69.7分迭代提升至77.0分。更具突破性的是，当GPT-5.5发布后，AHE能迅速演化出适配新模型的Harness，最终在相关全球排行榜中位列第三。

此外，这套自动化迭代产出的Harness展现出优异的跨模型泛化与跨任务泛化能力，证明其性能提升源于通用工程原则的习得，而非针对特定评测集的过拟合。

为何需要可观测体系？解析Harness Engineering的三个维度

要理解AHE的设计哲学，需从Harness Engineering的本质切入。从形态上看，模型与Harness共同构成了一个与环境交互的智能主体。模型是智能与不确定性的概率源，而Harness则是包裹其外的确定性工程组件，涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆及日志观测等。在智能体执行复杂、长程的生产力任务时，Harness是确保其行为稳定、一致、可控的关键工程保障。

从目的上看，Harness的一项核心职能是管理模型与环境间的双向上下文流：一侧需将任务、用户意图、环境状态等信息精准传递给模型，另一侧则需将模型的动作忠实地记录、校验并交回环境执行。

过去，这项工作高度依赖人工。开发者需手动设计提示词、复制终端输出、整理外部文档，上下文分散在互不相通的空间，全凭人类直觉与经验决定信息的构成与流动。因此，Harness设计的一个关键目标，是实现上下文流动的精准化与自主化。

那么，Harness Engineering的方法论究竟是什么？

最直观的层面，是独立优化各个组件代码，即常说的Agent Infra。开发者社区贡献了大量优秀的Harness组件，用于处理记忆、上下文管理、沙盒环境等，这依赖于扎实的工程能力，旨在提升每个组件的效率、安全性与稳定性。

但更进一步，当面对特定环境寻求最优Harness配置时，问题就演变为模型、Harness、环境三者的组合优化问题。此时，人类开发者的先验知识难以一步到位找到最优解，必须进入“开发-观测-迭代”的循环，依据模型的运行轨迹与评测分数反复调整。

人类的注意力是稀缺资源。因此，一个自然的演进方向是：让智能体自身也参与到Harness的优化进程中。只要能将优化目标、动作空间和状态空间以智能体可读的方式呈现，就有可能引入智能体进行自主优化。这正是AHE构建其可观测体系的出发点。

可观测体系：组件、经验与决策

Harness的开发通常遵循几个阶段：编写组件、运行智能体、收集反馈，并不断循环。要让智能体接手人类的工作，关键在于使这一过程产生的所有上下文变得可观测，并实现结构化和层次化。

AHE方法由三个核心角色构成：负责运行测试的Coding Agent、负责整理轨迹的Agent Debugger，以及负责修改Harness以实现进化的Evolve Agent。其可观测体系也相应地分为三个部分：

组件可观测性：通过NexAU框架提供解耦的、声明式的Harness组件。
经验可观测性：通过Agent Debugger将海量原始轨迹提炼为分层的、可溯源的反馈意见。
决策可观测性：让Evolve Agent基于Git历史与反馈结果，进行证据驱动的修改。

（1）组件可观测性：解耦的“声明式Harness”

Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件：系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件均为独立文件，拥有明确的挂载点，彼此结构解耦。

这种设计的精妙之处在于，它使得“失败模式”与“单一组件”之间的映射关系变得极其清晰。所有修改均通过Git进行版本管理，每一次变更都是一个可追溯、可审计、可回滚的提交。

作为优化起点的Coding Agent，被故意设计成一个“零先验”的极简形态：仅具备运行Shell命令的基础工具，不包含任何中间件、技能或子智能体。这确保了后续每一次新增组件或改写提示词，其效果都能被清晰归因。

（2）经验可观测性：Agent Debugger将轨迹转化为可消费资产

一次完整评测产生的原始轨迹动辄数千万Token，若直接提供给Evolve Agent，其上下文窗口将瞬间过载，无法进行有效修改。

为此，AHE开发了一套名为Agent Debugger的分层提炼流水线：底层完整记录所有原始轨迹；中层由Cleaner去除重复的工具输出；上层则通过一个QA子智能体，针对每道题目的多次运行结果，自动切换提问策略进行分析。最终，所有单题分析被汇聚成一份约10K Token的概览报告，供Evolve Agent高效消费。

这本质上是一种渐进式披露的设计。Evolve Agent默认只需阅读概览，但在需要核实时，可随时回溯查看单题细节乃至原始轨迹。如此一来，千万级的数据就转化为了可并发处理、可消费、可审计的经验资产。

（3）决策可观测性：Evolve Agent的“证据驱动修改”

Evolve Agent的设计原则非常克制，以确保进化的稳定性：

它仅能修改工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词均为只读，彻底杜绝任何试图绕过评测的“作弊”行为。
每次修改都必须附带一份详细的“变更清单”，包括：失败的证据（具体哪些任务失败了）、推断的根本原因、针对性的修改方案，以及自我声明的预测（预计修复哪些任务、可能破坏哪些任务）。每一轮修改后，由下一轮评测充当验证者——预测正确的修改得以保留，预测错误的则由智能体自主决定回滚。

通过这套机制，每一次Harness的变动都不再是工程师的抽象经验或直觉，而是一条可以被下一轮实验证伪的“科学假说”。Harness的进化，由此从一门依赖经验的“艺术”走向了遵循证据的“工程”。

实验结果：超越人类专家，展现卓越泛化能力

在主实验中，AHE驱动GPT-5.4模型，将Coding Agent在Terminal-Bench 2基准测试上的pass@1分数从最初的69.7%提升至77.0%，绝对提升7.3个百分点，相对提升达10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI官方Codex-CLI（71.9%），也显著优于ACE和Training Free-GRPO等主流基线方法。

更令人惊喜的是其泛化能力：

跨任务泛化：将在Terminal-Bench 2上演化得到的Harness冻结后，直接迁移到SWE-Bench Verified测试集上。结果显示，AHE以更少的Token消耗，实现了比ACE和TF-GRPO更高的成功率。这表明演化学到的是可迁移的通用工程经验，而非针对特定评测的“刷题”技巧。

跨模型泛化：将同一份由GPT-5.4演化得到的Harness，分别适配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型上，不做任何再演化直接评测。三种模型均获得了5.1到10.1个百分点的显著提升，且模型基础能力越弱，提升幅度越大。这说明演化出的Harness并非为特定模型量身定制，而是学到了一些真正普适的结构性原则。

价值沉淀在哪里？事实比策略更具可迁移性

在项目博客中，团队也分享了一些早期的失败探索。为了快速迭代，他们最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡，基本是“修复一个，破坏一个”。分析最终版本的Harness发现，Evolve Agent对特定题目编写了针对性的“补丁”代码。这表明，过小的题集会放大单题的信号，无法抑制智能体针对特定题目进行“黑客式”优化的倾向。

随后，团队将题集扩大到包含89道题的全集，并在Evolve Agent的系统提示词中加入了显式的方法论指导，如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合确实缓解了，但训练曲线在75.3%就早早触顶，且78%的修改都集中在中间件层。人工引入的行为先验，反而成了进化僵化的源头。

最终版本做了两个关键改动：一是在评测时每题运行两次，通过对比差异来定位更精准的诊断信号；二是删除了所有行为指导，只保留证据驱动的过程要求和回滚规则。

结果，分数稳步提升至77.0%，修改分布也变得更为健康：中间件37%、工具48%、提示词10%，没有任何一个层级占比过半，演化过程在不同阶段灵活调整。

一个有趣的发现来自消融实验。社区惯常思维是“先调整提示词”。然而，当把AHE演化得到的四类组件（记忆、工具、中间件、系统提示词）逐一放回最初的Harness进行测试时，结果截然相反：仅记忆组件就能恢复全局性能增幅的95%以上，工具组件对中等难度题目提升显著，而单独迁移系统提示词反而导致性能下降。

一个可能的解释是：提示词的语义是策略性的（“你应该这样做”），而记忆和工具的语义是事实性的（“这里有一段可复用代码”或“这是一个可用功能”）。事实比策略具有更好的可迁移性，它们保留了有效信息，同时维持了泛化能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败：开发者习惯于教授策略，而模型更擅长从事实中学习。

结语：可观测的进化循环将加速AGI进程

AHE带来的核心启示在于：当模型足够强大时，构建一个结构化的、可观测的演化环境，比直接动手开发Harness更为重要。只要构建好观测体系——让Evolve Agent能够清晰访问组件、轨迹和反馈——然后在全量数据上运行测试，就足以演化出具有竞争力的Harness。无需替智能体思考任何具体方法论，只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号，Evolve Agent的行为便会自动向真实优秀工程师的实践收敛。

路径已经清晰：是时候迈出第一步，让Harness自身也开始进化了。