提示词工程与上下文工程精选对比指南

2026-06-23阅读 0热度 0

其他

Anthropic 近期发布了一篇聚焦智能体上下文工程的深度文章。读完收获颇丰，以下提炼核心观点，作为个人研读笔记。

01 — Prompt Engineering vs Context Engineering

先厘清基础概念：上下文，即从大语言模型（LLM）采样时涉及的全部 token 集合。

下方对比图清晰拆解了提示词工程与上下文工程的核心差异。提示词工程侧重于“引导”——教会模型如何思考，以输出预期结果。上下文工程则更像一个后台管家，负责整合、提炼智能体运行中模型输出的信息，并进行持久化管理。两者并非对立，而是协同配合的关系。

各有专攻：提示词工程聚焦“单次问答”的最优解，上下文工程则瞄准“多轮自主任务”的最优解。应用场景不同，侧重点自然不同。

02 — 上下文工程对智能体的重要性

文章提出一个值得深思的观点：上下文会“腐烂”。

Anthropic 基于“大海捞针”经典实验，给出了一组触目惊心的数据：上下文长度低于 8k 时，模型召回率高达 95%；拉伸至 32k 时，召回率骤降至 78%；达到 100k 时，关键信息被模型“视而不见”的概率飙升至 30%。

简言之，上下文窗口内的 token 数量越多，模型准确回忆信息的能力呈线性下降。

根源深植于 LLM 的架构基因。Transformer 架构让每个 token 能与整个上下文中的所有其他 token 建立关联，形成 n² 级别的成对关系。上下文一旦变长，模型精准捕捉这些关系的难度指数级上升。这本质上是在上下文大小与模型注意力焦点之间，存在一种天然的拉扯。

数据说明一切：要构建真正有能力的智能体，上下文工程必须被严肃对待。

03 — 优质上下文的 4 个配方

1、提示词：高信号、低噪音

避免在提示词中书写“if A 且 B 且 C 则执行 D”这类脆弱逻辑，更不要只说“请尽量做好”这种空话。正确做法是：清晰定义边界、目标、输出格式，让模型自主推理路径。建议将提示词拆分为不同的部分，例如 <背景信息>、<指令>、## 工具指导、## 输出描述 等，使用 XML 标签或 Markdown 标题进行区隔，一目了然。

2、智能体工具调用：高效 token 与高效行为

工具是智能体与外部环境交互的桥梁，同时在运行时持续引入新上下文。但常见失败模式之一，是工具集过于臃肿，功能过多，导致模型在选择工具时犹豫不决。一个朴素原则：如果人类工程师自己都无法在某个场景下明确该用哪个工具，别指望 AI 能做得更好。为智能体策划一个最小可行工具集，反而有利于在长时间交互中维护和精简上下文。通过工具返回 token 高效的信息，同时规范智能体的行为，这才是提升 token 效率的关键。

3、示例（few-shot）：典型优于边缘

挑选 3 个能覆盖 80% 主流场景的典型示例，远胜于堆砌 20 条罕见边缘案例。前者让模型举一反三，后者只会令其迷失在细枝末节中。

4、动态检索

Anthropic 在另一篇文章中重新定义了智能体：LLM 在循环中自主使用工具。这催生了上下文字段设计思路的转变。当前，众多 AI 原生应用开始采用基于嵌入的“推理前检索”模式——先检索出重要上下文，再交给智能体进行推理。这不再是将所有数据提前塞入上下文，而是走“即时”路线：智能体仅维护轻量级标识符（如文件路径、存储查询、网页链接），通过工具在运行时按需动态加载数据到上下文。这种做法，实质上模拟了人类认知方式——我们不会记住整个信息库，而是依赖文件系统、收件箱、书签等外部系统，在需要时检索信息。

04 — 长程任务如何解决上下文问题

当任务从“分钟级”拉长到“小时级”，上下文窗口必然爆满。针对这一挑战，Anthropic 内部总结了三把“瑞士军刀”。

1、压缩

例如在 Claude Code 中，通过将消息历史传给模型进行总结和压缩。模型执行一次“精加工”，丢弃冗余的工具输出或消息，只保留架构决策、未解决的错误和实现细节等真正关键的信息。优先压缩智能体深处的工具调用及其结果，往往效果最佳——一旦工具在单次调用后深埋于消息历史中，后续的智能体无需再查看原始结果。

2、结构化笔记

简单说就是智能体记忆。让智能体定期将笔记写入持久化的“抽屉”，该“抽屉”独立于上下文窗口之外，需要时再拉回。这样就能释放上下文空间，留给即时使用的信息。

3、子智能体架构

这是绕过上下文限制的另一种方案。与其让一个智能体扛着整个项目的重量级上下文，不如让专门的子智能体用轻量上下文处理集中任务。主智能体负责高级计划与协调，子智能体深入执行具体技术工作或利用工具搜索信息。每个子智能体可能耗费数万个 token 进行大量探索，但最终只返回一份浓缩的总结（通常 1,000–2,000 token）。这实现了关注点的清晰分离——详细的探索上下文被封存在子智能体内部，主智能体则聚焦于综合与分析。Anthropic 在其多智能体研究系统中测试过，在分析 100 页 PDF 的任务上，子智能体方案比单智能体系统准确率提升 27%，而 token 消耗反而降低 40%。

05 — 结语

提示词时代，我们像搭讪高手，用一句话吸引模型；上下文时代，我们像电影导演，用整场戏讲好故事。当你的智能体开始自主查资料、写笔记、指挥子智能体时，请记住：限制它的从来不是智商，而是你赋予它的上下文管理能力。

提示词工程与上下文工程精选对比指南

相关阅读

最新教程

最新资讯