Harness Engineering：AI智能体系统化架构方法论30篇精选

2026-06-02阅读 0热度 0

智能体

摘要

支架工程（Harness Engineering）是一门正在兴起的架构学科，它的目标很明确：为AI智能体（Agent）搭建一个高度结构化的“运行环境”——也就是支架。这个支架不是简单的容器，而是一个精密设计的系统，包含了上下文交付、工具接口、规划工件、验证循环、记忆管理和沙箱执行等一整套机制。其核心目的，就是让智能体在处理真实任务时，变得更高效、更安全、也更可靠。

和传统的AI开发思路不太一样，支架工程不把宝全押在提升模型能力上。它认为，很多时候智能体表现不佳，瓶颈不在模型本身，而在于它周围的环境——上下文质量够不够好、约束机制够不够硬、反馈回路够不够快。说到“支架”（Harness），它本身就是一个很形象的隐喻。就骑马来说吧：模型是马，上下文是它看到的视野，而支架，就是那副缰绳、马鞍和路。本文会系统地梳理一下支架工程的理论框架和技术实现，重点围绕分层上下文系统、计划优先工作流、安全反射与行动闸门、评估支架、沙箱隔离与工具接口这五大核心支柱展开讨论，分析它们的设计原则、关键技术和理论背景，并结合最新的学术研究和产业实践，来聊聊它未来的可能。

关键词：支架工程；脚手架工程；AI 智能体；分层上下文系统；计划优先工作流；安全反射；执行轨迹评估；沙箱隔离；模型上下文协议

1 引言

我们先来定个调：什么是AI智能体？简单说，就是“由语言模型驱动，能在多次迭代中规划并执行动作，以实现复杂目标的实体”。这几年，智能体的能力边界确实在快速拓展，已经能在真实世界里完成像编码、调试、部署、数据分析这样多步骤的任务了。但能力上去了，新问题也跟着来了：多步执行中容易错误累积、上下文信息衰减、安全越界……这些问题的根子，往往不在模型本身，而是它身处的那个运行环境设计得有问题。

在这种背景下，AI辅助编程的范式经历了一次三级跳：从“提示词工程”（Prompt Engineering）到“上下文工程”（Context Engineering），再到现在的“支架工程”（Harness Engineering）。有研究表明，从2022年到2026年，研究重心正在从Weights（预训练、Scaling Law）转向Context（RAG、长上下文），再转向Harness（MCP工具生态、安全、多Agent协作）。这三者的关系不是替代，而是层层包含：Prompt ⊂ Context ⊂ Harness。用大白话说，提示词关心的是怎么把任务说清楚，上下文关心的是模型在执行任务时能“看”到什么，而支架关心的，是模型运行其间的整个系统级约束和验证架构。

表1: Prompt、Context 与 Harness 的三层范式对比

维度	Prompt Engineering	Context Engineering	Harness Engineering
时间窗口	2023–2024	2024–2025	2025–2026
核心关注	如何表达任务	模型在任务中看到什么	模型运行的系统级环境
典型技术	少样本示例、思维链提示	RAG、长上下文窗口、结构化提示	MCP协议、多层安全闸门、沙箱隔离
评估重心	单轮输出质量	检索准确性、上下文相关性	任务轨迹、计划依从性、步骤效率
瓶颈来源	提示词设计	信息检索与组织	系统架构与约束设计

支架工程就是在这个范式演进中，作为一套系统性的方法论被提出来的。它最核心的一个洞察是：模型能力正在趋同，而支架本身，才是Agent时代的真正护城河。Anthropic在实践中积累的经验就是活生生的例子——他们把CLAUDE.md视为项目上下文“最主要的事实来源”，通过编码项目约定、测试命令和架构说明，确保所有Agent都收敛到一个共享标准上。这篇文章的目的，就是对支架工程的理论框架和技术实现做个系统综述。后面的章节会依次讨论：分层上下文系统（第2章）、计划优先工作流（第3章）、安全反射与行动闸门（第4章）、评估支架（第5章）、环境隔离与工具接口（第6章），最后是总结与展望（第7章）。

2 分层上下文系统

2.1 上下文衰减问题与分层缓存的提出

支架工程之所以要搞分层上下文系统，根源在于对“上下文衰减”（Context Decay）这个问题的深刻理解。LLM在处理长上下文任务时，始终面临一个老难题：最著名的就是“迷失在中间”（lost in the middle）——长输入中间位置的信息，模型往往用不好。这个问题可以拆成两种机制来看：一是注意力分散（attention dispersion），输入一长，模型对关键指令的注意力权重就被稀释了；二是位置偏置（position bias），模型天生就对序列首尾的Token更上心。

学术界为了对付这个问题，想了不少招。比如Global Context Manager，这是一种架构组件，通过聚合、压缩和注入系统级上下文，用层级Transformer、注意力池化和强化学习驱动的策略来平衡局部和全局信号，在很多任务上都改善了性能和记忆效率。还有Context-Focus Window Mechanism，它搞了个指针式的外部记忆例程，把超出上下文限制的工具输出存到键值运行时库里，Agent只接收一个轻量指针，在多步化学工作流中，Token消耗能减少大约7倍。Tree of Agents（TOA）则另辟蹊径，采用多智能体推理框架，把输入切成小块交给独立的Agent去处理，通过动态信息交换沿着树结构路径进行多视角协同推理，用紧凑型LLaMA3.1-8B驱动时，在多种长上下文任务上，性能甚至能跟更大的商业模型掰掰手腕。

但支架工程的分层上下文系统，切入角度有点不一样。与其费劲去扩展上下文窗口、或者压缩信息，不如换个思路：把上下文看作一种分级缓存机制——精确控制在不同任务阶段，到底喂多少信息给模型。这个设计的灵感，其实是从计算机体系结构里的缓存层级设计（L1/L2/L3 Cache）借来的，在工程实践中，就形成了从全局“宪法”到按需加载的模块文档这样一个完整层次。

2.2 分层架构的具体设计

这个分层上下文系统，从顶层到底层，依次是这样的：

第一层：根规则文件（代码库“宪法”）。通常叫AGENTS.md或者CLAUDE.md。CLAUDE.md有个特点：它是唯一一个默认进入每一次Agent对话的文件，所以它里面的每条指令都消耗Token预算，但同时也享有最高的注意力权重。正因为这样，宪法层里只应该放那些“Agent无法通过读代码自己推导出来的部落知识”——比如非直观的架构规则、多租户隔离准则、版本隔离策略、项目独有的编码禁令等等。那些通用的编码建议、或者已经内化在模型训练数据里的知识，就别放这儿了。

OpenAI和Amp、Google Jules、Cursor等厂商在2025年初联合推出的AGENTS.md标准，进一步把这个实践规范化了。它采用Apache 2.0许可证，是个供应商中立的编程Agent指导文件协议，允许多种AI工具读取共享的项目上下文。它和README.md的分工很清楚：README是写给人类开发者看的，AGENTS.md是写给AI Agent看的。为了保证注意力集中，宪法层最好控制在55行以内。

第二层：安全反射（Safety Reflexes）。由3-5行组成的微型规则文件（详情见第4章），专门针对那些高成本的错误，构建类似“肌肉记忆”一样的防御性推理模式。这些规则每个会话都会加载，用条件式逻辑（“如果你正在做X，就必须做Y”）在关键推理环节进行瞬时干预，就像条件反射一样。

第三层：特性百科全书（Feature Encyclopedias）。给每个核心功能模块都创建一个大约60行的独立文档，内容包括实体Schema、关键文件路径、副作用注册表、版本可用性（社区版 vs. 企业版）和规范化领域术语。当Agent探索具体功能时，按需加载。这比传统模式——Agent通过read_file工具调取几十个源文件去猜测逻辑关系——要好得多，避免了信息过载和Token浪费。

第四层：技能与编码流程（Codified Workflows）。把复杂的多步操作（比如添加API端点、执行数据库迁移）固化成斜杠命令（例如/add-endpoint），给Agent提供一条不能轻易偏离的固定执行路径。Knowledge Activation框架（2026）把这个概念进一步形式化了——把AI技能定义为“可组合的知识图谱”，让Agent能在运行时遍历知识节点，有效压缩新手上路成本，还能消除纠错级联效应。

第五层：专项子智能体（Scoped Subagents）。通过建立“上下文防火墙”，把任务分派给职责明确的子智能体（比如分别负责前端、后端、更新日志）。每个子智能体都有独立且受限的工具权限和代码路径访问权限，在物理层面就切断了跨领域的信息噪音。

2.3 分层上下文的运行时调度

分层上下文系统的运行时行为，遵循的是“渐进式披露”（Progressive Disclosure）原则。Agent启动时，只加载宪法层和安全反射层（大概150行指令）。只有当Agent进入特定功能模块的探索阶段时，支架才会动态加载对应的特性百科全书。当Agent调用某个特定技能命令时，支架会进一步注入这个技能的结构化工作流。这种按需加载的机制，确保了活跃上下文始终处于模型注意力质量最高的“甜点区”。

研究表明，分层上下文的运行时机制可以对应三个关键环节：上下文凝聚（context condensation），就是把大量源文件的信息压缩到简洁的功能摘要里；相关性驱动选择（relevance-driven selection），只有跟当前子任务相关，才触发文档注入；以及RL驱动策略，通过强化学习来学习最优的信息注入时机和粒度。

2.4 配套机制：计划优先工作流与 `.agents/` 目录架构

分层上下文系统必须配合计划优先工作流，才能发挥最大效能（详见第3章）。在执行代码前，Agent必须根据当前层级的上下文，产出一份结构化的计划；人类开发者则在计划阶段审查Agent的意图，而不是它写的代码。这种“先计划后执行”的分离，确保了上下文信息在推理阶段被充分利用，而不是在盲目编码中被浪费掉。

在物理组织层面，为了在多个AI工具（Claude Code、Cursor、Aider、Windsurf等）之间维护一致的上下文配置，现代支架工程通常会把所有核心逻辑都存放在一个独立的.agents/目录里，然后通过符号链接，映射到具体工具的配置文件夹（比如ln -s .agents/rules .claude/rules）。.agents/features/存放模块百科全书（通常包含40多个独立的Markdown文件，每个大约60行），.agents/skills/存放编码化工作流，.agents/rules/存放安全反射规则。这种“工具中立”的设计，确保了支架的内容可以比任何一个具体的AI平台活得更久。

3 计划优先工作流

3.1 理论基础：推理与执行的分离

计划优先工作流（Plan-First Workflow）的核心思想，是把智能体的“推理/规划”和“执行”在架构层面分离开来。在传统的ReAct（Reason + Act）模式下，Agent是边走边想，每做一个动作，就局部推理一下，逐步推进任务。这种交错执行的模式，在简单任务上表现不错，但一碰到涉及多个文件和长期依赖的复杂任务，就容易出问题——早期步骤的一个微小错误会累积放大，最终导致输出完全跑偏。

Plan-then-Execute（P-t-E）模式对此做了根本性的改进。Krawiecka和Del Rosario他们把P-t-E定义为一种智能体设计模式，核心就是“战略规划”（strategic planning）和“战术执行”（tactical execution）分离，核心组件包括Planner（规划器）和Executor（执行器）。和ReAct这种响应型架构相比，P-t-E在可预测性、成本效率、推理质量和安全韧性方面，都展现出了架构性的优势。Source Code Agent框架把这个想法推向极致，提出了“Blueprint First, Model Second”的哲学——把工作流逻辑从生成模型中彻底解耦，由领域专家定义的操作程序被编码成基于源代码的执行蓝图（Execution Blueprint），然后交给确定性引擎去执行，从而消除了LLM非确定性带来的变异风险。

3.2 核心流程：四阶段分离

计划优先工作流通常包含四个关键阶段：

阶段	Agent行为	人类角色	上下文消耗
1. 任务简报	读取并理解任务描述	编写包含范围、权限要求、成功标准和环境约束的详细简报	最低
2. 计划模式	探索代码库、阅读特性文档、产出一份结构化计划（PLAN.md）	等待Agent完成探索	中等（主要为只读探索）
3. 人类审查	响应人类反馈、修正计划逻辑	审查Agent的意图而非代码；约80%的价值产生于此阶段	最低
4. 正式执行	按照获批的计划蓝图进行编码、测试和提交	监督执行过程	最高

注意，在计划模式（Plan Mode）下，Agent是被强制约束为只读模式的——不能修改任何代码。它利用支架中的语义搜索工具探索代码库，阅读相关的特性百科全书文档，还可以提出澄清性问题。最终产出的结构化计划，必须明确说明：需要创建或修改的具体文件路径、API的数据形状（Schema）、测试方案，以及预期的影响范围。

3.3 计划工件与跨会话持续性

支持计划优先工作流的支架工程，引入了专用的计划工件（Planning Artifact）。PLAN.md或者Implement.md文件持久化存储了Agent的推理路径、里程碑和中间决策，这就实现了跨会话的任务恢复。当长任务因为会话超时或上下文溢出而中断时，新会话里的Agent可以直接读取计划工件，从上次中断点继续执行，不用再重新探索代码库或者重新推理整个任务了。

3.4 安全架构与防御纵深

从安全角度来看，P-t-E模式的架构优势不仅体现在推理质量上。Del Rosario他们深入分析后发现，P-t-E通过建立控制流完整性（control-flow integrity），天然就对间接提示注入攻击有韧性——Executor只执行Planner已经审定的操作序列，外部注入的恶意指令根本没法绕过Planner去改变执行路径。当然，作者也强调，P-t-E只是防御纵深的基础层，不是完整解决方案，必须辅以最小权限原则（PoLP）、任务范围工具访问限制和沙箱化代码执行等补充控制。

3.5 评估关联：计划质量与计划依从性

在评估层面，计划优先工作流催生了两个关键的推理层评估指标：

计划质量（Plan Quality）：评估计划本身的质量，看它的逻辑性（步骤序列是否符合因果和技术逻辑）、完整性（是否覆盖了用户简报中的所有关键需求）和效率性（是否为达成目标的最优路径）。
计划依从性（Plan Adherence）：衡量Agent在实际执行中是否忠于它的预设计划，识别有没有跳步、乱序调用工具，或者在半路上产生幻觉偏离路线的情况。

4 安全反射与行动闸门

4.1 双重防御体系的理论基础

安全，是支架工程从设计之初就嵌入骨髓的核心关切。在这个体系里，安全防护依赖的是一种双重防御架构：

安全反射（Safety Reflexes）：工作在模型的思考阶段，通过极其精简的上下文工程来影响推理过程，形成推理层面的“自律准则”。
行动闸门（Action Gates）：工作在模型的行动前夕，在Agent已经决定调用某个工具、但代码或命令还没真正运行之前，进行确定性的拦截，形成执行层面的“强制约束”。

这两道防线的设计哲学，可以追溯到认知神经科学里的“系统1/系统2”双过程理论——安全反射模仿的是快速、自动化的习惯性防御（系统1），行动闸门则类似于审慎、确定性的规则检查（系统2）。

4.2 安全反射的设计原理与实现

安全反射被定义为分层上下文系统的第二层级。它的设计遵循严格的极简原则：每个规则文件只包含3-5行指令，参数化为“如果你正在做X，就必须做Y”这样的条件逻辑。

从信息论的角度看，安全反射的有效性根植于LLM对规则的编码和遵循机制。有系统性的研究表明，系统提示词里规则的编码方式（位置、密度、语义明确性）会显著影响模型的注意力分配和遵循行为。安全反射通过在上下文的最顶层位置（注意力权重最高）注入高频代价指令，利用模型的指令遵循能力，在关键推理环节进行瞬时干预。

在实践中，安全反射通常存放在.agents/rules/（或.claude/rules/）目录下，包含类似这样的规则：

规则类型	触发条件	强制行为
数据隔离	构造数据库查询	每个查询必须携带 projectId 或 platformId 过滤器
版本安全	跨目录引用代码	禁止从企业版目录向社区版导入代码
实体注册	创建新的数据表	必须同时在 Migration 中注册实体
安全HTTP	发起出站HTTP请求	所有出站请求必须通过 safeHttp 包装器

安全反射的理论渊源还可以进一步追溯到Meta-Policy Reflexion（MPR）框架。MPR把谓词式记忆和硬性准入检查结合到一起，通过在提示词里注入相关规则来偏置解码过程，让它朝着安全有效的行动路径走。它的关键见解在于：Agent的记忆不仅仅是“学到了什么”，更应该是“什么规则必须被遵守”。

4.3 行动闸门的实现原理与技术栈

行动闸门采用的是确定性策略拦截机制，这和“安全反射通过提示词影响推理”形成了完美互补。它的核心技术组件包括：

符号规则验证门控（Symbolic Rule Verification Gating）。这是一种混合编排层，在Agent的计划动作执行之前，把它跟硬编码的符号逻辑规则集做比对评估。这个系统集成了Open Policy Agent（OPA）和Rego策略语言，对每一次工具调用和API请求都进行执行前审计。

Policy-as-Code。把安全、合规和访问规则都转化成可执行的代码，取代那些脆弱的手动流程。通过OPA/Rego这样的工具嵌入AI Agent基础设施，每次决策在真正执行前，都会经过一个“允许/拒绝”的二元判定，决策的输入、输出和判定结果都会被完整记录下来，形成审计追踪。

运行时控制。Unified Plan Verification框架在LLM Agent的计划前后都插入显式校验。静态验证（SVR）在执行前，把通用分类法（完整性、正确性、可执行性）实例化成特定任务的双元检查表；动态验证策略（DVP）在执行中消费步骤上下文和工具输出，发出符号动作（接受/下一步/切换/跳过/回溯）。

ShieldAgent。作为首个专门设计的Agent安全护卫系统，ShieldAgent通过构建安全策略模型——从策略文档中提取可验证规则，构建为基于动作的概率规则电路——在被保护Agent的动作轨迹上执行逻辑推理和形式验证。在包含3K安全相关测试对的ShieldAgent-Bench上，ShieldAgent实现了90.1%的高召回率，同时还有平均11.3%的性能提升。

Agent安全治理框架。AGENTSAFE框架把AI风险仓库（AI Risk Repository）操作化为一个覆盖设计、运行时和审计三类控制的完整治理流水线。它深入剖析智能体循环（规划→行动→观察→反思）和工具链，把风险映射到一个扩展了Agent特定漏洞的结构化分类法上，通过语义遥测、动态授权、异常检测和可中断性机制，实现持续治理。

4.4 双重防线的协同机制

安全反射和行动闸门在下面这些维度上形成了互补：

维度	安全反射	行动闸门
作用阶段	模型推理期间	工具调用前夕
实现机制	提示词注入、注意力偏置	符号逻辑判定、策略引擎（OPA/Rego）
失败模式	模型忽略或注意力衰减	策略定义不完整或有漏洞
防范目标	项目特定的架构错误、逻辑幻觉	越权操作、安全违规、合规风险
性能开销	Token消耗（约150行/会话）	毫秒级延迟（策略引擎判定）

这两者协同起来，就产生了“纵深防御”的效果：安全反射通过让Agent在推理阶段“更聪明”，来预防错误想法的产生；行动闸门则充当最后的防线，在错误想法试图转化为行动时，进行强制拦截。这就是双重保险。

5 评估支架

5.1 从单轮评估到全轨迹评估

支架工程的评估体系，代表了一次根本性的评估哲学转型：从关心“是否达成目标”，转向关心“如何达成目标”。传统的LLM评估范式，聚焦于简单的“输入-输出”对——给一组测试用例，看模型输出和预期答案匹不匹配。但Agent评估不一样，需要拓展成对行动轨迹的多步骤分析。

这个转型的关键原因，在于Agent特有的不确定性本质：同一个任务，在不同执行中可能产生完全不同的工具调用序列。两个Agent可能都成功完成了任务，但一个的效率可能是另一个的两倍；一个Agent的最终输出虽然正确，但它的执行路径可能留下了难以察觉的安全隐患。所以，完整的Agent评估必须把轨迹分析包含进来。

TRAJECT-Bench作为一个轨迹感知的评估基准，通过细粒度的评估指标，揭示了工具混淆和参数盲选这些失败模式。TRACE框架则更进一步，通过引入证据库（Evidence Bank），在没有真实标注的情况下，对工具增强的LLM Agent进行多维度轨迹评估。

表6: 代表性 Agent 评估基准对比

基准	评估对象	轨迹感知	指标层次	典型发现
TRAJECT-Bench	工具调用轨迹	✅ 是	工具选择、参数正确、路径效率	工具混淆、参数盲选
TRACE	工具增强轨迹	✅ 是	多维度（证据库驱动）	无标注下的有效评估
ShieldAgent-Bench	安全相关轨迹	✅ 是	安全违规检测	90.1%召回率
SWE-bench Verified	编码任务结果	❌ 否	任务完成率	2025年顶尖系统75%
AgentRewardBench	轨迹评判能力	✅ 是	评判者在5个基准×4个LLM上的一致性	评判者可靠性评估

5.2 多层级评估指标

完整的执行轨迹评估，会在下面这几个层级上进行：

推理层指标：

计划质量（Plan Quality）：评估Agent在执行前制定的初始计划的质量。高质量计划需要满足三个维度——逻辑性（步骤序列是否符合因果和技术逻辑）、完整性（是否覆盖了用户简报中的所有关键需求）和效率性（是否为达成目标的最优路径）。
计划依从性（Plan Adherence）：衡量Agent的实际执行是否忠于它的预设计划。通过比计划中的步骤序列和实际执行中的工具调用序列，计算跳步率和乱序率。依从性高，说明Agent的推理输出是“言行一致”的。

行动层指标：

工具选择准确性：比对Agent实际选择的工具和预设正确答案的匹配度。
参数正确性：验证工具调用中的参数值，是不是源自现有上下文，而不是凭空捏造的。
路径有效性：通过分析追踪记录，识别有没有无限循环、冗余调用或不必要的回溯。

端到端指标：

步骤效率（Step Efficiency）：实际执行步数和理论最短路径的对比。
任务成功率（Task Completion Rate）：任务最终是否达成。
Token效率：完成任务消耗的总Token数，这直接反映了经济成本。

5.3 评估方法论：从 LLM-as-Judge 到 Agent-as-Judge

评估方法通常可以分为两类：

确定性检查。适用于那些输出可以预期的场景，通过精确比对工具名称、参数格式和API状态码，实现零误差的评估。这种方法快、成本低，但只适用于封闭式指标。

LLM-as-Judge。对于开放式的响应质量或逻辑对齐，用能力更强的模型（比如GPT-4或Claude Opus）根据预设的量规来评分。其中，Agent-as-a-Judge方法的可靠性，是显著优于传统LLM-as-Judge的。不过也得注意，这种方法也面临裁判偏差、评分不一致等挑战。

回归闸门。在CI/CD流水线里设置一个阈值，当新版本Agent在关键指标上低于基准时，自动拦截部署，防止质量滑坡。

6 环境隔离与工具接口

6.1 沙箱执行的多层次技术栈与工业实践

支架工程要求为每个Agent会话提供受控的计算环境，实现严格的进程、文件系统和网络隔离。这不仅仅是安全需求，也是确定性的保障——不可信代码的执行不能污染宿主机的状态，不同会话之间也不能发生数据泄漏。

目前主流的三种隔离技术，各有千秋：

方案	gVisor	Kata Containers	Firecracker microVM
隔离机制	用户态内核（Sentry）拦截并模拟系统调用	硬件虚拟化：轻量VM + Guest Kernel	硬件虚拟化：极简 microVM
攻击面	约20个安全出口（syscall被拦截）	VM边界（kernel漏洞无法跨VM）	最小化虚拟设备（约5个模拟设备）
兼容性	约70-80% Linux 系统调用	近乎100%（完整Guest Kernel）	极简，仅支持headless应用
启动时间	约100 ms	约200-500 ms	约100-150 ms
性能开销	较大（系统调用拦截 + 用户态模拟）	中等（硬件虚拟化开销）	小（极简VMM + 无模拟设备）

从技术演进来看，2024到2025年间，AI Agent的沙箱隔离正在从容器全面向microVM迁移。Firecracker和gVisor已经成为行业主流选择——OpenAI的Code Interpreter基于gVisor构建，E2B的沙箱月创建量从4万飙升至1500万，Anthropic的Cowork则采用Apple Virtualization.framework提供完整的VM级隔离。

Kubernetes Agent Sandbox原生支持gVisor和Kata Containers两种安全容器运行时，为把沙箱化Agent执行嵌入云原生基础设施，提供了标准化的方案。在安全方面，沙箱安全需要辅以最小权限原则（只授予任务所需的最小工具集）和数据外泄防护（egress过滤防止数据泄漏），这是整个安全体系的基本盘。

6.2 模型上下文协议与工具接口设计

模型上下文协议（MCP）是Anthropic在2024年11月推出的一个开放标准，目标是为AI模型和外部工具、数据源之间的连接，提供一个统一的标准化接口。MCP解决了“M×N集成税”问题——传统模式下，每个Agent和每个外部系统之间都要搞定制集成，随着Agent数量M和外部系统数量N的增长，维护成本是二次型爆炸的。

从工具设计的角度，MCP实践遵循下面几个工程原则：

工具设计即Agent UX。Agent是通过读取工具的名称、描述和参数Schema，来决定是否以及如何使用这个工具的。所以，工具的命名、描述性和JSON Schema的严谨性，直接影响Agent的任务成功率。有风险的注解（比如readOnlyHint、destructiveHint、idempotentHint）会被嵌入接口设计中，作为支架层权限决策的输入信号。

代码执行模式以替代多步工具调用。Anthropic在2025年11月发表的MCP优化指南里，提出了一个解决Token膨胀的关键方案：把MCP工具转化成“代码API”，让Agent编写并执行代码来批量调用多个工具，只把最终结果返回给模型。实验数据表明，这种方式在处理长时任务时，可以把Token消耗从大约150K降低到大约2K，节省率高达98.7%。

分层工具暴露与渐进式披露。这和分层上下文系统的设计理念一脉相承，MCP工具也应该遵循“按需加载”原则。不是把所有可用工具在初始化时全量注入上下文，而是只暴露和当前任务相关的工具子集。

MCP网关与安全治理。在企业级部署中，所有外部MCP调用通常都会通过MCP网关（Gateway）袋里，实现认证（比如OAuth 2.1 + mTLS）、授权（比如OPA/Rego动态策略引擎）、限流和审计追踪。MCP Airlock就是一种零信任安全网关，位于AI助手和MCP服务器之间，通过JWT验证和OPA/Rego动态策略决策，实现精细化的工具调用管控。MCP授权规范（2025年6月定稿）进一步以OAuth 2.1和PKCE为基座，为Agent的安全互操作提供了标准化的授权框架。

6.3 沙箱与 MCP 的集成模式

在一个完整的支架工程架构里，代码执行模式和沙箱技术是高度耦合的。Agent通过MCP工具调用请求代码执行，MCP服务器把生成的代码部署到沙箱环境里运行（比如E2B的Firecracker microVM，或者Daytona的OCI容器），执行结果再安全地返回给Agent。这种“MCP作为接口、沙箱作为运行时”的集成模式，就构成了支架工程中环境隔离与工具接口这两大支柱的统一架构。

7 总结与展望

支架工程标志着AI Agent开发从“模型中心”向“系统工程中心”的一次范式转换。它的核心洞见很清晰：模型能力正在趋同，而支架才是Agent时代的真正护城河。通过分层上下文管理、计划优先认知流、安全反射与行动闸门的双重防线、全轨迹评估体系以及多层次沙箱隔离，支架工程把非确定性的LLM封装在一个确定性的工程支架里，让Agent能够在生产环境中可靠地运行。

不过，当前支架工程也面临一些挑战：

工具中立性。不同AI工具之间的指令格式差异，让跨平台支架的维护成本居高不下。.agents/目录配合符号链接的架构，展示出了解决这个问题的潜力，但还需要更标准化的方案。
上下文压缩策略的优化。在超长会话中，如何智能地摘要历史信息，保持Agent的推理质量，还是一个活跃的研究领域。
评估量规的标准化。不同团队和组织定义的评估指标和量规差异还很大，缺乏一个行业统一的基准框架。
安全治理的自动化。随着Agent权限的逐渐扩大，如何实现安全策略的自动化生成和自适应调整，是个越来越紧迫的问题。

更大的挑战来自架构复合性的提升。随着多智能体协作系统（multi-agent systems）越来越多，如何定义组件间的协议、编排并发工作流、以及实现跨Agent的知识共享，正在成为支架工程的核心议题——可以说，能力已经不是瓶颈了，约束才是。

可以预见的是，随着智能体能力的进一步演进，支架工程会从当前的“手工打造”阶段，逐步走向工程化的组件抽象——比如标准化的安全闸门模块、可复用的上下文分层模板、跨平台的Agent配置协议，以及统一的评估基准套件。支架工程正在形成AI基础设施领域的一个新一级学科，它对软件工程方法论的影响，将远远超出提示词工程本身。

Harness Engineering：AI智能体系统化架构方法论30篇精选

摘要

1 引言

2 分层上下文系统

2.1 上下文衰减问题与分层缓存的提出

2.2 分层架构的具体设计

2.3 分层上下文的运行时调度

2.4 配套机制：计划优先工作流与 `.agents/` 目录架构

3 计划优先工作流

3.1 理论基础：推理与执行的分离

3.2 核心流程：四阶段分离

3.3 计划工件与跨会话持续性

3.4 安全架构与防御纵深

3.5 评估关联：计划质量与计划依从性

4 安全反射与行动闸门

4.1 双重防御体系的理论基础

4.2 安全反射的设计原理与实现

4.3 行动闸门的实现原理与技术栈

4.4 双重防线的协同机制

5 评估支架

5.1 从单轮评估到全轨迹评估

5.2 多层级评估指标

5.3 评估方法论：从 LLM-as-Judge 到 Agent-as-Judge

6 环境隔离与工具接口

6.1 沙箱执行的多层次技术栈与工业实践

6.2 模型上下文协议与工具接口设计

6.3 沙箱与 MCP 的集成模式

7 总结与展望

相关阅读

最新教程

最新资讯

摘要

1 引言

2 分层上下文系统

2.1 上下文衰减问题与分层缓存的提出

2.2 分层架构的具体设计

2.3 分层上下文的运行时调度

2.4 配套机制：计划优先工作流与 .agents/ 目录架构

3 计划优先工作流

3.1 理论基础：推理与执行的分离

3.2 核心流程：四阶段分离

3.3 计划工件与跨会话持续性

3.4 安全架构与防御纵深

3.5 评估关联：计划质量与计划依从性

4 安全反射与行动闸门

4.1 双重防御体系的理论基础

4.2 安全反射的设计原理与实现

4.3 行动闸门的实现原理与技术栈

4.4 双重防线的协同机制

5 评估支架

5.1 从单轮评估到全轨迹评估

5.2 多层级评估指标

5.3 评估方法论：从 LLM-as-Judge 到 Agent-as-Judge

6 环境隔离与工具接口

6.1 沙箱执行的多层次技术栈与工业实践

6.2 模型上下文协议与工具接口设计

6.3 沙箱与 MCP 的集成模式

7 总结与展望

相关阅读

最新教程

最新资讯

2.4 配套机制：计划优先工作流与 `.agents/` 目录架构