AgentDoG 1.5 安全框架测评：轻量可扩展 Agent 轨迹保护

2026-06-14阅读 0热度 0

原创社区投稿 2026-06-07 00:00 河北

当风险藏在Agent的整条执行轨迹里，安全系统就不能只看最后一句话了。它需要搞明白Agent在过程中看到了什么、调用了什么、依据什么做的决策，以及这些中间环节是不是已经造成了安全后果。

AI Agent正在从“会回答”向“会行动”演进。它们能读写文件、调用工具、运行命令、连接MCP server、访问外部服务，还能在多轮交互中根据环境反馈不断调整决策。

安全风险也因此不再局限于用户输入或最终回复，而是可能出现在工具描述、环境返回、仓库文件、依赖包、历史状态，甚至某一次毫不起眼的中间工具调用里。

这正是AgentDoG 1.5想解决的问题。它把ATBench扩展成了面向多类Agent环境的评测家族，并借助taxonomy-guided DataEngine来构造高质量的训练数据，最终形成一套可评测、可训练、可部署的轨迹级安全框架。简单说，就是让安全系统从“看最终回答”升级为“看完整执行轨迹”。

一、问题起点：为什么现有护栏不够

Agentic AI系统和传统单轮应用最大的区别在于，它会在一个较长的交互链条里规划、调用工具、读取环境反馈，并产生用户很难一步步检查的中间决策。

一次不安全行为未必体现在最终回复中。它可能已经发生在错误的工具调用、过度授权的文件操作、被污染的环境信息采信，或者一条延迟传播的失败链条里。

对用户来说，这类问题还会带来额外成本：需要监控Agent的行为、纠正错误、恢复被误改的状态，甚至追查到底是哪一步出了问题。

现有安全方案在这里遇到一个明显的两难选择。闭源frontier model通常推理和分析能力更强，能处理长轨迹并给出较好的诊断，但成本高、延迟大，想拿它做大规模或实时部署的轻量监控器，基本不现实。开源通用模型成本更低，却往往缺乏对多步规划、工具调用、环境反馈和延迟失败传播的稳定判断力。

至于现有的guard model，大多围绕prompt或response级安全分类来设计，输出往往偏粗粒度，很难定位风险来自哪里、Agent怎么失败的，以及这种失败可能造成什么现实后果。

所以AgentDoG 1.5的切入点不是简单“再加一个护栏”，而是把安全判断对象明确为完整的agent trajectory，让模型同时完成二分类判断和细粒度诊断。Engine在这里不是一句口号，而是一套数据和评测管线：它需要系统覆盖不同Agent环境中的风险，生成带工具调用和环境反馈的轨迹，并把可验证的轨迹证据转化为训练和部署都能用的监督信号。

二、ATBench Family：统一的轨迹级评测接口

AgentDoG 1.5首先把评测单位从单次回答推进到了完整执行轨迹。在ATBench Family中，每条样本都包含用户请求、Agent响应、工具调用和环境反馈，模型需要判断整条轨迹是safe还是unsafe；如果不安全，还要进一步给出Risk Source、Failure Mode和Real-world Harm这三个维度的诊断。

这样的设计避免了只看最终回复时的盲区，也让安全评测从“有没有问题”走向“问题从哪里来、怎么发生的、会造成什么后果”。

最新的ATBench包含1,000条经过审计的轨迹，其中503条安全、497条不安全；覆盖2,084个可用工具、1,954个实际调用的工具，平均每条轨迹包含9.01轮交互和约3.95k tokens。

在此基础上，AgentDoG 1.5进一步扩展出ATBench-Claw和ATBench-Codex：前者面向OpenClaw风格的状态化、多工具、多技能Agent，覆盖session、approval、routing、plugin/skill trust和unattended automation等风险；后者面向Codex风格的代码执行Agent，覆盖仓库文件、shell命令、依赖、MCP、patch、测试输出和运行时策略等证据。

这套family的价值在于，它让不同Agent环境共享同一个诊断接口。新的执行环境出现时，不需要重新定义一个完全孤立的安全任务，而是在稳定的三维结构上扩展或细化叶子类目。这样既能保留跨benchmark的可比性，也能让评测真正贴近Codex、OpenClaw这类新型系统中特有的执行风险。

三、ATBench DataEngine：从taxonomy到可训练轨迹

有了评测接口，还需要一条能持续生产高质量轨迹数据的管线。Agent安全数据的难点在于，风险必须发生在过程中，而且标签必须能被轨迹证据支撑。简单收集最终回答，很难覆盖复杂工具链中的长尾风险；直接合成数据，又容易产生格式错误、语义不一致、标签缺乏证据等问题。

AgentDoG 1.5因此构建了taxonomy-guided DataEngine。它不是随机生成任务，而是先从三维安全分类法中采样一个风险组合，再围绕这个组合规划用户任务、工具集合、执行步骤和风险注入点。

接下来，Trajectory synthesis会把规划草图实例化为完整的多轮交互，包含用户消息、Agent响应、工具调用和环境反馈；同一个场景骨架既可以生成安全版本，也可以生成不安全版本。

最后，Automatic validation通过规则检查和模型检查做双层质量控制，过滤掉工具调用格式错误、schema不一致、步骤不连贯、标签无法从轨迹中得到支持的样本。

经过验证的数据池覆盖了5,973个独立工具和MCP server，包含9类风险来源、18类失效模式、10类真实世界危害，以及1,620个风险组合。

为了让模型学到从证据到结论的推理路径，AgentDoG 1.5还引入了CoT rationale增强；同时，为了避免训练被低价值或噪声样本拖累，又通过数据净化方法筛选高信息量样本，最终用约1k条高质量SFT样本训练轻量诊断模型。

也就是说，DataEngine的作用不只是“生成更多数据”，而是把taxonomy、轨迹证据和训练信号真正串联起来。

四、Application 1：Safety Agentic SFT & RL

AgentDoG 1.5的第一个应用，是把这套轨迹级数据和诊断能力接入Agent安全训练。在SFT阶段，团队使用ATBench DataEngine构造agentic safety supervision data：先生成良性工具使用轨迹，再按照三维taxonomy往工具描述、用户请求、工具调用或工具返回中注入风险，并要求模型生成对应的安全处理轨迹。

这里的目标不是让模型简单拒绝一切，而是让它能识别风险、拒绝或中和有害部分、避免危险工具调用，同时尽量保留用户任务中的良性目标。

原始数据包含26,021组轨迹对。经过AgentDoG 1.5诊断过滤后，保留了约21,939条高质量agentic safety轨迹；为了避免模型学成过度保守的拒绝策略，团队又混入了50,000条良性工具使用轨迹，形成约1:2的安全关键数据与良性工具数据混合。

以Qwen3.5-4B为基础模型，使用过滤后的安全SFT数据后，AgentHarm Harm Score从57.49%降至20.32%，Refusal Rate从28.41%提升至75.00%，AgentSafetyBench Safe Rate从34.37%提升至53.23%，BFCL函数调用准确率也提升至81.12%。

这些结果说明，轨迹级安全监督可以增强安全行为，同时不必牺牲基本的工具调用能力。

在RL阶段，AgentDoG 1.5进一步作为外部安全评估器提供reward signal。团队构建了轻量有限状态Python环境，用规则奖励衡量任务效用，用AgentDoG 1.5衡量安全行为，从而同时优化utility与safety。

这套环境覆盖323个工具、16个领域，并构造了clean task、environment injection attack、malicious query三类训练场景；相比依赖真实软件环境，它更适合大规模rollout，在高并发压力下峰值内存保持在2.5GB以下。

最终，SFT+RL联合训练将AgentHarm Harm Score降至18.04%，Refusal Rate提升至77.27%，AgentSafetyBench Safe Rate提升至59.32%，同时BFCL仍保持在81.25%。

五、Application 2：Online Agent Safety Guardrail

AgentDoG 1.5的第二个应用，是把轨迹级诊断能力部署到线上Agent运行时。如果说Application 1解决的是训练期的安全对齐，那么Application 2解决的就是部署期的安全监控：当Agent已经在真实或接近真实的环境中运行时，如何在最终回复发出前，对完整执行轨迹做一次安全审查。

这个问题不能只靠规则，因为运行时风险可能跨越多次工具调用、延迟观察和变化的上下文；规则检查在局部checkpoint上有效，但很可能漏掉只有看完整轨迹才能发现的失败。

AgentDoG 1.5采用pre-reply作为主要介入点。Agent仍然按原流程执行任务，系统在最终回复交付给用户前，收集用户输入、工具调用、工具返回、环境观察、可用中间推理和最终回复草稿，把这些事件整理成轨迹级表示，交给AgentDoG 1.5判断是否安全。

如果轨迹安全，原回复正常发出；如果轨迹不安全，就拦截或替换最终回复，并记录诊断结果。选择pre-reply的工程原因也很直接：它不需要在每次工具调用后都审查，避免给长任务引入显著延迟，同时又比只看最终回复拥有更完整的上下文。

在final-reply-preventable评测中，AgentDoG 1.5能降低最终交付层面的残余不安全率。ClawSafety中，无护栏ASR为56.25%，AgentDoG 1.5-4B降至18.75%；AgentHazard Prompt_Intel_Theft中，无护栏ASR为41.92%，AgentDoG轨迹护栏降至34.23%；CIK Core35中，无护栏ASR为94.29%，AgentDoG轨迹护栏降至68.57%。

这说明，训练和评测时使用的轨迹级表示，也能迁移到运行时监控中，让评测、训练和部署共享同一套安全诊断接口。

六、小模型也能做强Agent安全判断

AgentDoG 1.5的一个重要目标，是把轨迹级安全诊断能力压缩进轻量模型，而不是每次都依赖高成本的frontier model。实验显示，AgentDoG-Qwen3-4B在R-Judge上达到91.8%的Accuracy和92.7%的F1；在ATBench上达到92.8%的Accuracy和93.0%的F1，显著优于多数通用guard model。

更关键的是，它不只是输出safe / unsafe，还能进行细粒度风险诊断：在ATBench fine-grained诊断任务中，AgentDoG-Qwen3-FG-4B的Risk Source Accuracy为82.0%，Failure Mode Accuracy为32.4%，Real-world Harm Accuracy为58.4%。

这些结果和前面的DataEngine设计是相互呼应的。显式的三维taxonomy监督、轨迹级证据、CoT rationale和数据净化，使轻量模型能够学习“发现风险、定位原因、解释后果”的诊断能力。

对于真实部署来说，这一点很关键：安全监控不仅要准，还要足够便宜、足够快，才有可能进入大规模Agent系统。

七、总结：从轨迹评测到应用闭环

AgentDoG 1.5的主线可以概括成一条闭环：ATBench Family定义稳定的轨迹级评测接口，ATBench DataEngine将taxonomy转化为可控的数据生成和净化管线，Application 1把这些轨迹级信号用于SFT与RL，Application 2再把同一套诊断接口部署到线上pre-reply guardrail。

这样一来，Agent安全不再只是事后给输出打标签，而是贯穿评测、训练和部署的完整流程。

随着Agent进入更多代码执行、工作流自动化、多工具协作和长期状态管理的场景，安全系统也必须从“看最终回答”升级为“看完整执行轨迹”。

AgentDoG 1.5的价值正在于此：它把轨迹级风险诊断做成了一套可扩展、可训练、可部署的框架，让Agent安全更接近真实系统的运行方式。

往期推荐

解决大模型训练 Loss Spike！重新设计激活函数 SwiGLU，聊聊蚂蚁 Ling 模型背后的 PowLU

不改模型，也能提升垂域 Agent？4 层 Harness 即可带来 88.5% 平均提升

实录精选！直面 OPD 训练困境，如何破解三类典型失败与修复路径？

自动化所最新推出 π-Play: 基于自博弈生成特权信息的自蒸馏大模型自进化框架