复旦自进化Harness工程实战:GPT-5.4性能提升7%的深度测评
2026年,Harness Engineering(智能体框架工程)已从技术概念跃升为行业核心议题。OpenAI、Anthropic、LangChain等机构的技术博客,以及OpenClaw、Hermes Agent等项目的兴起,共同印证了这一趋势。行业共识日益清晰:大模型潜力的深度挖掘,正越来越依赖于一套精密的、工程化的外部框架体系。
然而,Harness的开发与优化本身就是一个复杂的系统工程,必须结合模型特性与具体任务环境进行设计。当模型能力以月为单位快速迭代,任务场景持续向长尾领域扩展时,Harness的演进却仍高度依赖人工经验与试错。这引出了一个核心命题:在Harness Engineering的迭代闭环中,哪些环节可以实现自动化?我们能否让Harness具备从经验中自我学习并持续优化的能力?
近期,复旦大学、北京大学与上海奇绩智峰的研究团队提出了一套名为Agentic Harness Engineering (AHE)的解决方案。其核心在于,通过一套以可观测性为驱动的自动化方法,端到端地贯穿Harness工程全流程,旨在最大化释放模型的自主性与能动性。
- 论文标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- 论文链接:arxiv.org/abs/2604.25850
- 代码仓库:github.com/china-qijizhifeng/agentic-Harness-engineering
实验数据表明,在GPT-5.4模型上,AHE将Coding Agent在Terminal-Bench 2基准测试的分数从69.7分迭代提升至77.0分。更具突破性的是,当GPT-5.5发布后,AHE能迅速演化出适配新模型的Harness,最终在相关全球排行榜中位列第三。
此外,这套自动化迭代产出的Harness展现出优异的跨模型泛化与跨任务泛化能力,证明其性能提升源于通用工程原则的习得,而非针对特定评测集的过拟合。
为何需要可观测体系?解析Harness Engineering的三个维度
要理解AHE的设计哲学,需从Harness Engineering的本质切入。从形态上看,模型与Harness共同构成了一个与环境交互的智能主体。模型是智能与不确定性的概率源,而Harness则是包裹其外的确定性工程组件,涵盖系统提示词、工具定义与实现、中间件、技能文档、子智能体编排、长期记忆及日志观测等。在智能体执行复杂、长程的生产力任务时,Harness是确保其行为稳定、一致、可控的关键工程保障。
从目的上看,Harness的一项核心职能是管理模型与环境间的双向上下文流:一侧需将任务、用户意图、环境状态等信息精准传递给模型,另一侧则需将模型的动作忠实地记录、校验并交回环境执行。
过去,这项工作高度依赖人工。开发者需手动设计提示词、复制终端输出、整理外部文档,上下文分散在互不相通的空间,全凭人类直觉与经验决定信息的构成与流动。因此,Harness设计的一个关键目标,是实现上下文流动的精准化与自主化。
那么,Harness Engineering的方法论究竟是什么?
最直观的层面,是独立优化各个组件代码,即常说的Agent Infra。开发者社区贡献了大量优秀的Harness组件,用于处理记忆、上下文管理、沙盒环境等,这依赖于扎实的工程能力,旨在提升每个组件的效率、安全性与稳定性。
但更进一步,当面对特定环境寻求最优Harness配置时,问题就演变为模型、Harness、环境三者的组合优化问题。此时,人类开发者的先验知识难以一步到位找到最优解,必须进入“开发-观测-迭代”的循环,依据模型的运行轨迹与评测分数反复调整。
人类的注意力是稀缺资源。因此,一个自然的演进方向是:让智能体自身也参与到Harness的优化进程中。只要能将优化目标、动作空间和状态空间以智能体可读的方式呈现,就有可能引入智能体进行自主优化。这正是AHE构建其可观测体系的出发点。
可观测体系:组件、经验与决策
Harness的开发通常遵循几个阶段:编写组件、运行智能体、收集反馈,并不断循环。要让智能体接手人类的工作,关键在于使这一过程产生的所有上下文变得可观测,并实现结构化和层次化。
AHE方法由三个核心角色构成:负责运行测试的Coding Agent、负责整理轨迹的Agent Debugger,以及负责修改Harness以实现进化的Evolve Agent。其可观测体系也相应地分为三个部分:
- 组件可观测性:通过NexAU框架提供解耦的、声明式的Harness组件。
- 经验可观测性:通过Agent Debugger将海量原始轨迹提炼为分层的、可溯源的反馈意见。
- 决策可观测性:让Evolve Agent基于Git历史与反馈结果,进行证据驱动的修改。
(1)组件可观测性:解耦的“声明式Harness”
Coding Agent基于NexAU框架运行。AHE将Harness拆解为七种正交的文件级组件:系统提示词、工具描述、工具实现、中间件、技能、子智能体配置和长期记忆。每个组件均为独立文件,拥有明确的挂载点,彼此结构解耦。
这种设计的精妙之处在于,它使得“失败模式”与“单一组件”之间的映射关系变得极其清晰。所有修改均通过Git进行版本管理,每一次变更都是一个可追溯、可审计、可回滚的提交。
作为优化起点的Coding Agent,被故意设计成一个“零先验”的极简形态:仅具备运行Shell命令的基础工具,不包含任何中间件、技能或子智能体。这确保了后续每一次新增组件或改写提示词,其效果都能被清晰归因。
(2)经验可观测性:Agent Debugger将轨迹转化为可消费资产
一次完整评测产生的原始轨迹动辄数千万Token,若直接提供给Evolve Agent,其上下文窗口将瞬间过载,无法进行有效修改。
为此,AHE开发了一套名为Agent Debugger的分层提炼流水线:底层完整记录所有原始轨迹;中层由Cleaner去除重复的工具输出;上层则通过一个QA子智能体,针对每道题目的多次运行结果,自动切换提问策略进行分析。最终,所有单题分析被汇聚成一份约10K Token的概览报告,供Evolve Agent高效消费。
这本质上是一种渐进式披露的设计。Evolve Agent默认只需阅读概览,但在需要核实时,可随时回溯查看单题细节乃至原始轨迹。如此一来,千万级的数据就转化为了可并发处理、可消费、可审计的经验资产。
(3)决策可观测性:Evolve Agent的“证据驱动修改”
Evolve Agent的设计原则非常克制,以确保进化的稳定性:
- 它仅能修改工作区内的Harness组件文件。评测框架、LLM配置、原始系统提示词均为只读,彻底杜绝任何试图绕过评测的“作弊”行为。
- 每次修改都必须附带一份详细的“变更清单”,包括:失败的证据(具体哪些任务失败了)、推断的根本原因、针对性的修改方案,以及自我声明的预测(预计修复哪些任务、可能破坏哪些任务)。每一轮修改后,由下一轮评测充当验证者——预测正确的修改得以保留,预测错误的则由智能体自主决定回滚。
通过这套机制,每一次Harness的变动都不再是工程师的抽象经验或直觉,而是一条可以被下一轮实验证伪的“科学假说”。Harness的进化,由此从一门依赖经验的“艺术”走向了遵循证据的“工程”。
实验结果:超越人类专家,展现卓越泛化能力
在主实验中,AHE驱动GPT-5.4模型,将Coding Agent在Terminal-Bench 2基准测试上的pass@1分数从最初的69.7%提升至77.0%,绝对提升7.3个百分点,相对提升达10.5%。这一成绩不仅超越了同样使用GPT-5.4的OpenAI官方Codex-CLI(71.9%),也显著优于ACE和Training Free-GRPO等主流基线方法。
更令人惊喜的是其泛化能力:
跨任务泛化:将在Terminal-Bench 2上演化得到的Harness冻结后,直接迁移到SWE-Bench Verified测试集上。结果显示,AHE以更少的Token消耗,实现了比ACE和TF-GRPO更高的成功率。这表明演化学到的是可迁移的通用工程经验,而非针对特定评测的“刷题”技巧。
跨模型泛化:将同一份由GPT-5.4演化得到的Harness,分别适配到Qwen-3.6-Plus、Gemini-3.1-Flash和DeepSeek-V4模型上,不做任何再演化直接评测。三种模型均获得了5.1到10.1个百分点的显著提升,且模型基础能力越弱,提升幅度越大。这说明演化出的Harness并非为特定模型量身定制,而是学到了一些真正普适的结构性原则。
价值沉淀在哪里?事实比策略更具可迁移性
在项目博客中,团队也分享了一些早期的失败探索。为了快速迭代,他们最初仅在Terminal-Bench 2的30道高难度题目上进行10轮演化。结果题目通过数在16-20之间反复震荡,基本是“修复一个,破坏一个”。分析最终版本的Harness发现,Evolve Agent对特定题目编写了针对性的“补丁”代码。这表明,过小的题集会放大单题的信号,无法抑制智能体针对特定题目进行“黑客式”优化的倾向。
随后,团队将题集扩大到包含89道题的全集,并在Evolve Agent的系统提示词中加入了显式的方法论指导,如“安全/创意/通用性”原则和“中间件 > 工具描述 > 技能 > 提示词”的约束层级。过拟合确实缓解了,但训练曲线在75.3%就早早触顶,且78%的修改都集中在中间件层。人工引入的行为先验,反而成了进化僵化的源头。
最终版本做了两个关键改动:一是在评测时每题运行两次,通过对比差异来定位更精准的诊断信号;二是删除了所有行为指导,只保留证据驱动的过程要求和回滚规则。
结果,分数稳步提升至77.0%,修改分布也变得更为健康:中间件37%、工具48%、提示词10%,没有任何一个层级占比过半,演化过程在不同阶段灵活调整。
一个有趣的发现来自消融实验。社区惯常思维是“先调整提示词”。然而,当把AHE演化得到的四类组件(记忆、工具、中间件、系统提示词)逐一放回最初的Harness进行测试时,结果截然相反:仅记忆组件就能恢复全局性能增幅的95%以上,工具组件对中等难度题目提升显著,而单独迁移系统提示词反而导致性能下降。
一个可能的解释是:提示词的语义是策略性的(“你应该这样做”),而记忆和工具的语义是事实性的(“这里有一段可复用代码”或“这是一个可用功能”)。事实比策略具有更好的可迁移性,它们保留了有效信息,同时维持了泛化能力。这或许也解释了为何人类试图通过注入方法论来指导Evolve Agent时会遭遇失败:开发者习惯于教授策略,而模型更擅长从事实中学习。
结语:可观测的进化循环将加速AGI进程
AHE带来的核心启示在于:当模型足够强大时,构建一个结构化的、可观测的演化环境,比直接动手开发Harness更为重要。只要构建好观测体系——让Evolve Agent能够清晰访问组件、轨迹和反馈——然后在全量数据上运行测试,就足以演化出具有竞争力的Harness。无需替智能体思考任何具体方法论,只需提供一个清晰的工作区、明确的修改接口和高质量的反馈信号,Evolve Agent的行为便会自动向真实优秀工程师的实践收敛。
路径已经清晰:是时候迈出第一步,让Harness自身也开始进化了。
