AgentDoG 1.5 安全框架测评:轻量可扩展 Agent 轨迹保护

2026-06-14阅读 0热度 0
ai

原创 社区投稿 2026-06-07 00:00 河北

当风险藏在Agent的整条执行轨迹里,安全系统就不能只看最后一句话了。它需要搞明白Agent在过程中看到了什么、调用了什么、依据什么做的决策,以及这些中间环节是不是已经造成了安全后果。


AI Agent正在从“会回答”向“会行动”演进。它们能读写文件、调用工具、运行命令、连接MCP server、访问外部服务,还能在多轮交互中根据环境反馈不断调整决策。

安全风险也因此不再局限于用户输入或最终回复,而是可能出现在工具描述、环境返回、仓库文件、依赖包、历史状态,甚至某一次毫不起眼的中间工具调用里。

这正是AgentDoG 1.5想解决的问题。它把ATBench扩展成了面向多类Agent环境的评测家族,并借助taxonomy-guided DataEngine来构造高质量的训练数据,最终形成一套可评测、可训练、可部署的轨迹级安全框架。简单说,就是让安全系统从“看最终回答”升级为“看完整执行轨迹”。


一、问题起点:为什么现有护栏不够

Agentic AI系统和传统单轮应用最大的区别在于,它会在一个较长的交互链条里规划、调用工具、读取环境反馈,并产生用户很难一步步检查的中间决策。

一次不安全行为未必体现在最终回复中。它可能已经发生在错误的工具调用、过度授权的文件操作、被污染的环境信息采信,或者一条延迟传播的失败链条里。

对用户来说,这类问题还会带来额外成本:需要监控Agent的行为、纠正错误、恢复被误改的状态,甚至追查到底是哪一步出了问题。

现有安全方案在这里遇到一个明显的两难选择。闭源frontier model通常推理和分析能力更强,能处理长轨迹并给出较好的诊断,但成本高、延迟大,想拿它做大规模或实时部署的轻量监控器,基本不现实。开源通用模型成本更低,却往往缺乏对多步规划、工具调用、环境反馈和延迟失败传播的稳定判断力。

至于现有的guard model,大多围绕prompt或response级安全分类来设计,输出往往偏粗粒度,很难定位风险来自哪里、Agent怎么失败的,以及这种失败可能造成什么现实后果。

所以AgentDoG 1.5的切入点不是简单“再加一个护栏”,而是把安全判断对象明确为完整的agent trajectory,让模型同时完成二分类判断和细粒度诊断。Engine在这里不是一句口号,而是一套数据和评测管线:它需要系统覆盖不同Agent环境中的风险,生成带工具调用和环境反馈的轨迹,并把可验证的轨迹证据转化为训练和部署都能用的监督信号。

二、ATBench Family:统一的轨迹级评测接口

AgentDoG 1.5首先把评测单位从单次回答推进到了完整执行轨迹。在ATBench Family中,每条样本都包含用户请求、Agent响应、工具调用和环境反馈,模型需要判断整条轨迹是safe还是unsafe;如果不安全,还要进一步给出Risk Source、Failure Mode和Real-world Harm这三个维度的诊断。

这样的设计避免了只看最终回复时的盲区,也让安全评测从“有没有问题”走向“问题从哪里来、怎么发生的、会造成什么后果”。

最新的ATBench包含1,000条经过审计的轨迹,其中503条安全、497条不安全;覆盖2,084个可用工具、1,954个实际调用的工具,平均每条轨迹包含9.01轮交互和约3.95k tokens。

在此基础上,AgentDoG 1.5进一步扩展出ATBench-Claw和ATBench-Codex:前者面向OpenClaw风格的状态化、多工具、多技能Agent,覆盖session、approval、routing、plugin/skill trust和unattended automation等风险;后者面向Codex风格的代码执行Agent,覆盖仓库文件、shell命令、依赖、MCP、patch、测试输出和运行时策略等证据。

这套family的价值在于,它让不同Agent环境共享同一个诊断接口。新的执行环境出现时,不需要重新定义一个完全孤立的安全任务,而是在稳定的三维结构上扩展或细化叶子类目。这样既能保留跨benchmark的可比性,也能让评测真正贴近Codex、OpenClaw这类新型系统中特有的执行风险。

三、ATBench DataEngine:从taxonomy到可训练轨迹

有了评测接口,还需要一条能持续生产高质量轨迹数据的管线。Agent安全数据的难点在于,风险必须发生在过程中,而且标签必须能被轨迹证据支撑。简单收集最终回答,很难覆盖复杂工具链中的长尾风险;直接合成数据,又容易产生格式错误、语义不一致、标签缺乏证据等问题。

AgentDoG 1.5因此构建了taxonomy-guided DataEngine。它不是随机生成任务,而是先从三维安全分类法中采样一个风险组合,再围绕这个组合规划用户任务、工具集合、执行步骤和风险注入点。

接下来,Trajectory synthesis会把规划草图实例化为完整的多轮交互,包含用户消息、Agent响应、工具调用和环境反馈;同一个场景骨架既可以生成安全版本,也可以生成不安全版本。

最后,Automatic validation通过规则检查和模型检查做双层质量控制,过滤掉工具调用格式错误、schema不一致、步骤不连贯、标签无法从轨迹中得到支持的样本。

经过验证的数据池覆盖了5,973个独立工具和MCP server,包含9类风险来源、18类失效模式、10类真实世界危害,以及1,620个风险组合。

为了让模型学到从证据到结论的推理路径,AgentDoG 1.5还引入了CoT rationale增强;同时,为了避免训练被低价值或噪声样本拖累,又通过数据净化方法筛选高信息量样本,最终用约1k条高质量SFT样本训练轻量诊断模型。

也就是说,DataEngine的作用不只是“生成更多数据”,而是把taxonomy、轨迹证据和训练信号真正串联起来。

四、Application 1:Safety Agentic SFT & RL

AgentDoG 1.5的第一个应用,是把这套轨迹级数据和诊断能力接入Agent安全训练。在SFT阶段,团队使用ATBench DataEngine构造agentic safety supervision data:先生成良性工具使用轨迹,再按照三维taxonomy往工具描述、用户请求、工具调用或工具返回中注入风险,并要求模型生成对应的安全处理轨迹。

这里的目标不是让模型简单拒绝一切,而是让它能识别风险、拒绝或中和有害部分、避免危险工具调用,同时尽量保留用户任务中的良性目标。

原始数据包含26,021组轨迹对。经过AgentDoG 1.5诊断过滤后,保留了约21,939条高质量agentic safety轨迹;为了避免模型学成过度保守的拒绝策略,团队又混入了50,000条良性工具使用轨迹,形成约1:2的安全关键数据与良性工具数据混合。

以Qwen3.5-4B为基础模型,使用过滤后的安全SFT数据后,AgentHarm Harm Score从57.49%降至20.32%,Refusal Rate从28.41%提升至75.00%,AgentSafetyBench Safe Rate从34.37%提升至53.23%,BFCL函数调用准确率也提升至81.12%。

这些结果说明,轨迹级安全监督可以增强安全行为,同时不必牺牲基本的工具调用能力。

在RL阶段,AgentDoG 1.5进一步作为外部安全评估器提供reward signal。团队构建了轻量有限状态Python环境,用规则奖励衡量任务效用,用AgentDoG 1.5衡量安全行为,从而同时优化utility与safety。

这套环境覆盖323个工具、16个领域,并构造了clean task、environment injection attack、malicious query三类训练场景;相比依赖真实软件环境,它更适合大规模rollout,在高并发压力下峰值内存保持在2.5GB以下。

最终,SFT+RL联合训练将AgentHarm Harm Score降至18.04%,Refusal Rate提升至77.27%,AgentSafetyBench Safe Rate提升至59.32%,同时BFCL仍保持在81.25%。

五、Application 2:Online Agent Safety Guardrail

AgentDoG 1.5的第二个应用,是把轨迹级诊断能力部署到线上Agent运行时。如果说Application 1解决的是训练期的安全对齐,那么Application 2解决的就是部署期的安全监控:当Agent已经在真实或接近真实的环境中运行时,如何在最终回复发出前,对完整执行轨迹做一次安全审查。

这个问题不能只靠规则,因为运行时风险可能跨越多次工具调用、延迟观察和变化的上下文;规则检查在局部checkpoint上有效,但很可能漏掉只有看完整轨迹才能发现的失败。

AgentDoG 1.5采用pre-reply作为主要介入点。Agent仍然按原流程执行任务,系统在最终回复交付给用户前,收集用户输入、工具调用、工具返回、环境观察、可用中间推理和最终回复草稿,把这些事件整理成轨迹级表示,交给AgentDoG 1.5判断是否安全。

如果轨迹安全,原回复正常发出;如果轨迹不安全,就拦截或替换最终回复,并记录诊断结果。选择pre-reply的工程原因也很直接:它不需要在每次工具调用后都审查,避免给长任务引入显著延迟,同时又比只看最终回复拥有更完整的上下文。

在final-reply-preventable评测中,AgentDoG 1.5能降低最终交付层面的残余不安全率。ClawSafety中,无护栏ASR为56.25%,AgentDoG 1.5-4B降至18.75%;AgentHazard Prompt_Intel_Theft中,无护栏ASR为41.92%,AgentDoG轨迹护栏降至34.23%;CIK Core35中,无护栏ASR为94.29%,AgentDoG轨迹护栏降至68.57%。

这说明,训练和评测时使用的轨迹级表示,也能迁移到运行时监控中,让评测、训练和部署共享同一套安全诊断接口。

六、小模型也能做强Agent安全判断

AgentDoG 1.5的一个重要目标,是把轨迹级安全诊断能力压缩进轻量模型,而不是每次都依赖高成本的frontier model。实验显示,AgentDoG-Qwen3-4B在R-Judge上达到91.8%的Accuracy和92.7%的F1;在ATBench上达到92.8%的Accuracy和93.0%的F1,显著优于多数通用guard model。

更关键的是,它不只是输出safe / unsafe,还能进行细粒度风险诊断:在ATBench fine-grained诊断任务中,AgentDoG-Qwen3-FG-4B的Risk Source Accuracy为82.0%,Failure Mode Accuracy为32.4%,Real-world Harm Accuracy为58.4%。

这些结果和前面的DataEngine设计是相互呼应的。显式的三维taxonomy监督、轨迹级证据、CoT rationale和数据净化,使轻量模型能够学习“发现风险、定位原因、解释后果”的诊断能力。

对于真实部署来说,这一点很关键:安全监控不仅要准,还要足够便宜、足够快,才有可能进入大规模Agent系统。

七、总结:从轨迹评测到应用闭环

AgentDoG 1.5的主线可以概括成一条闭环:ATBench Family定义稳定的轨迹级评测接口,ATBench DataEngine将taxonomy转化为可控的数据生成和净化管线,Application 1把这些轨迹级信号用于SFT与RL,Application 2再把同一套诊断接口部署到线上pre-reply guardrail。

这样一来,Agent安全不再只是事后给输出打标签,而是贯穿评测、训练和部署的完整流程。

随着Agent进入更多代码执行、工作流自动化、多工具协作和长期状态管理的场景,安全系统也必须从“看最终回答”升级为“看完整执行轨迹”。

AgentDoG 1.5的价值正在于此:它把轨迹级风险诊断做成了一套可扩展、可训练、可部署的框架,让Agent安全更接近真实系统的运行方式。


往期推荐

解决大模型训练 Loss Spike!重新设计激活函数 SwiGLU,聊聊蚂蚁 Ling 模型背后的 PowLU

不改模型,也能提升垂域 Agent?4 层 Harness 即可带来 88.5% 平均提升

实录精选!直面 OPD 训练困境,如何破解三类典型失败与修复路径?

自动化所最新推出 π-Play: 基于自博弈生成特权信息的自蒸馏大模型自进化框架

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策