AI工程三层进化:Prompt、Context与Harness解析
开篇:三层,三次跃迁
2023年那会儿,大家基本都在琢磨一件事:怎么把提示词写得更好。
到了2025年,风向就变了——大家发现,提示词不过是冰山浮出水面的那一角,真正的功夫在水面之下,那个叫“上下文”的东西才是关键。
而站在2026年往回看,行业里已经形成了一个共识:真正的竞争力,既不在模型本身,也不在提示词技巧,而在于那个包裹着模型、让它能稳定运行的“机械外壳”——Harness。
所以这篇文章,就想把这三年三层演进的路子,一层层拆开来看。每一层到底解决了什么问题,又捅出了什么新篓子。
第一层:Prompt Engineering(2023)
解决了什么
让大模型给出更好的回答。在只有ChatGPT一个文本框的年代,你能做的全部操作,就是把那几句话写好。
核心手段
- 角色设定:“你是一个有10年经验的后端架构师…”
- 分步引导:“第一步先分析,第二步再给出方案…”
- 少样本示例:“比如像这样回答…”
暴露了什么
这个阶段的局限性其实相当明显:
- 模型是老大,人只能顺着模型来。同一个prompt在GPT-3.5和GPT-4上跑出来的结果,那真是天差地别。
- 每次对话都是“单机版”。没有记忆,没有积累,每次都从零开始。
- 最要命的是,它没法编程。你的全部控制权,就锁死在一个文本框里。调用工具?访问数据库?想都别想。
第二层:Context Engineering(2024-2025)
解决了什么
大家的注意力从单次prompt,切换到了对模型所能“看见”的全部信息环境进行系统治理。
核心洞察
关键就在于,模型每次推理时吃到嘴里的东西,远不止你敲进去的那段话:
- 系统提示词(System Prompt)
- 对话历史(多轮消息)
- 检索到的文档(RAG注入)
- 工具调用的返回结果
- 项目文件内容
- 你的prompt:“帮我审查这段代码”
核心手段
| 技术 | 做什么 |
|---|---|
| RAG | 从知识库动态注入相关文档 |
| System Prompt设计 | 全局约束和角色定义 |
| 上下文压缩 | 超长对话里保留关键信息、丢掉噪音 |
| 多Agent上下文共享 | 多个Agent之间传递结构化信息 |
暴露了什么
这一层的进步是实打实的,但新的问题也随之而来:
- 信息环境污染。上下文越长,模型越容易被无关的碎片信息带偏。
- 上下文窗口再宽也有限。再多,也装不下一个完整项目。
- 模型依然没法自主行动。它本质上还是个“回答问题”的系统,而不是“执行任务”的系统。
- 状态不持久。一场对话结束,上下文瞬间清零。
第三层:Harness Engineering(2026)
解决了什么
模型能回答好问题了,上下文也能治理好了。但这一切都还差最后一公里:怎么让模型变成一个能自主完成任务的系统?Harness的出现,就是直接回答了这个根本性问题。
什么是Harness
Harness这个词,直译是“马具”——套在马身上的那套缰绳、嚼子和鞍具。马提供动力,控制方向、速度和安全的,是马具。在AI的语境里,这个类比非常贴切。
Harness的七个构件
- Context:管理和注入模型所需的信息。这是对第二层成果的继承和强化。
- Orchestration:把复杂任务拆成子任务、编排执行顺序。为什么需要?因为模型自己不带规划能力。
- Reasoning Core:LLM推理 + 工具调用。Agent循环的心脏。
- Policy & Guard:明确什么能做、什么不能做。防止模型越权、乱花钱,这是护栏。
- State:跨会话持久化状态。一场对话装不下整个任务,那么状态就得独立于对话存在。
- Verification:完成前必须验证。对抗模型那种“改完就宣布搞定”的坏习惯。
- Observability:全链路追踪、成本统计、评估。看不见就等于不存在,这是系统工程的铁律。
业界的实际验证
这些不是纸上谈兵,市场上已经有一手案例了:
- Anthropic的Claude Code:它本身就是一套Harness,完整管理循环、工具调用、状态持久化和人工介入。
- OpenAI Codex团队:用Harness Engineering的理念,工程师不写代码,只设计Harness,最终产出了100万行生产级代码。
- LangChain:通过改进Harness(不换模型),把编码Agent的基准分从52.8%拉到了66.5%。
- Terraform创始人Mitchell Hashimoto的评论值得细品:“Agent每次犯错,你不用去跟它说‘下次注意’,你只需要让这类错误在系统结构上变得不可能。”
演进总结
| 时代 | 年份 | 解决的问题 | 核心手段 | 遗留问题 |
|---|---|---|---|---|
| Prompt | 2023 | 让模型输出更好 | 角色设定、分步引导、少样本 | 完全依赖模型,不可编程 |
| Context | 2024-25 | 治理信息环境 | RAG、压缩、多Agent共享 | 不能自主行动,状态不持久 |
| Harness | 2026 | 构建自主系统 | 编排、护栏、持久化、验证 | 复杂度陡增,调试成本高 |
下一层?Meta Context & Intent Engineering
眼看2026年,已经有一些新方向露出了苗头:
- Meta Context Engineering(ICML 2026)—— 把“怎么设计上下文”这件事本身变成AI可学习的技能,让AI自己进化自己的context策略。
- Intent Engineering—— 从定义“怎么做”,走向定义“要什么”,让Agent理解组织的目标、价值观和约束。
- Specification Engineering—— 把企业策略写成机器可读的规范,让Harness能自动理解和执行。
一句话总结
从写好一句话,到管好一片上下文,再到造好一套系统——这三年,我们其实一直在做同一件事:把不确定性,一点一点关进笼子里。
本文基于2023-2026年AI工程实践发展脉络编写。