ClawGym:高效训练可扩展智能体的权威指南
OpenClaw等个人智能体环境的出现,标志着大模型的角色正在发生根本性转变:从“响应问题”的助手,演进为“交付结果”的执行实体。然而,与传统文本推理或单一工具调用相比,Claw-style环境带来了更复杂的挑战——如何让智能体在一个具备真实状态、可交互的持久化工作区中,通过连续操作达成用户指定的最终目标?
在这种新范式下,智能体面对的并非静态问题,而是一个由多样化资源构成的工作空间。它需要透过多轮交互,对文件系统进行读写、运行脚本、解析数据、修改文档,并依据环境提供的实时反馈动态调整其执行策略。
核心在于,Claw-style环境是一个高度交互的状态化执行框架。智能体的每个操作都会改变工作区的状态,而后续决策又完全依赖于这些动态生成的中间状态。任务的成败,不再取决于智能体是否声称完成,而是取决于工作区的最终状态是否符合所有预设标准:文件是否位于正确路径、表格计算是否精确无误、输出格式是否严格合规、跨文件逻辑是否保持一致性。
正是这种特性,使得面向Claw Agents的数据构建、模型训练与能力评估,其复杂度远超传统基准测试。当前研究多集中于静态问答、网页操作或限定工具调用,但对于这种开放式、长流程、多产物、且结果可客观验证的个人工作区任务,系统性的任务构造、轨迹采集与可靠评估体系,仍是一个显著的研究空白。
为填补这一关键缺口,我们推出了ClawGym——一个专为Claw Agents设计的一体化框架,旨在系统化串联数据合成、模型训练与可信评估。其目标不仅是提供任务集合,而是为构建Claw-style个人智能体,建立一个从任务生成、环境执行、轨迹学习到能力诊断的完整技术闭环。
ClawGym框架包含三个核心模块:
- ClawGym-SynData:首个面向Claw Agents的大规模可执行合成数据集,涵盖13.5K个任务。
- ClawGym-Agents:基于OpenClaw黑盒执行轨迹训练Claw Agent,并探索沙盒并行强化学习方案。
- ClawGym-Bench:包含200个高质量任务的评估基准,覆盖六类工作区场景,用于诊断智能体的真实执行能力。
目前,该项目已开源其五项核心资源,涵盖评估基准、模型与完整训练管线,包括ClawGym-Bench评测数据与代码、ClawGym-Agents模型检查点、训练数据及训练代码,是目前最全面的OpenClaw训练与评测资源库。我们希望这些资源能为后续研究提供坚实基础,推动通用智能体向实际工作场景落地。
- 论文标题:ClawGym: A Scalable Framework for Building Effective Claw Agents
- 项目主页:https://github.com/ClawGym
- 作者机构:中国人民大学,至知研究院
为何Claw Agent需要全新的训练框架?
Claw-style任务更贴近真实的办公场景:用户提出目标,智能体需在本地工作区中进行一系列操作,直至最终状态达标。这种模式带来了几项核心挑战。
任务构造复杂。此类任务需覆盖个性化需求、真实工作流程及可行的操作序列,远非生成一个简单的提示词就能解决。
轨迹采集困难。OpenClaw这类系统高度封装,获取其长程、复杂的交互轨迹必须依赖黑盒推演,并需从原始执行日志中还原出高质量的训练数据。
训练稳定性要求高。尤其在强化学习阶段,模型需要在大量独立沙盒环境中并发推演,训练成本高昂,收敛稳定性也更难保障。
奖励信号难以定义。任务成功与否不取决于文本相似度,而是最终工作区状态是否正确,这需要对文件、结构、数值及多维产物质量进行精准的结构化验证。
ClawGym-SynData:构建可执行、可验证的工作区任务集
ClawGym-SynData是整个框架的数据基础,包含了13.5K个可执行任务。其构建遵循一个严谨的四步闭环:任务生成 → 资源准备 → 验证设计 → 质量评估。
双路线任务合成策略
为确保任务既反映真实用户需求,又能在工作区中被实际执行与验证,ClawGym采用了两种互补的合成路线:角色驱动的自上而下合成与技能驱动的自下而上合成。
第一条路线,角色驱动的自上而下合成,从“用户意图”出发。框架首先构建不同用户画像、工作场景及原子操作组合(如文件整理、数据分析、报告生成)。随后,模型基于这些要素生成具体任务指令,使任务更贴近办公、开发等场景中的实际需求,而非抽象的描述。
第二条路线,技能驱动的自下而上合成,则从“系统能力”出发。ClawGym会从OpenClaw的技能库中提取可复用的工具能力,通过技能标注、过滤与组合,确保生成的任务与OpenClaw的实际执行边界对齐,保证其可行性。
两条路线相互补充:前者保障了任务的真实性、场景多样性与用户意图的贴合度;后者则确保了任务的落地性、工具可用性与执行保障。二者结合,最终产出一批既符合真实工作流,又能在环境中被精确检查与评分的任务。
自动化模拟工作区生成
Claw-style任务不仅需要指令,还必须配备一个可操作的初始工作区。只有当任务所需的文件、字段、数据目录真实存在时,智能体才能执行具体操作,而非停留在文本建议层面。
为此,ClawGym会为每个任务自动生成轻量级的模拟工作区,包含Markdown、JSON、CSV、YAML、配置文件等多种格式的资源。这些资源均围绕任务目标构造,为执行过程提供需要读取、分析或修改的具体内容。
通过这种方式,每个任务都拥有了明确的初始状态和可控的数据条件。智能体必须基于工作区中的真实文件推进任务,而最终结果也可以依据文件路径、字段数值、逻辑约束等进行稳定验证。
混合验证机制设计
在验证设计上,ClawGym采用了基于代码的验证与基于量规的验证相结合的混合策略,同时覆盖客观正确性与主观质量要求。
- 基于代码的验证负责检查那些可用程序明确判断的维度,例如文件路径是否正确、JSON/CSV结构是否符合规范、数值计算与过滤逻辑是否准确。
- 基于量规的验证则用于评估更难完全代码化的质量维度,例如报告清晰度、摘要忠实度、表达专业性、内容完整性,以及最终产物是否真正满足用户深层意图。
二者结合,使得ClawGym不仅能判断智能体“是否执行了操作”,还能进一步评估其是否“执行正确”且“产出优质”。这确保了任务结果经得起结构、内容与质量的多重检验。
ClawGym-Agents:从真实执行轨迹中训练智能体
有了高质量的任务数据,下一步是模型训练。ClawGym通过OpenClaw黑盒推演收集真实的交互轨迹,而非重新实现一个简化的智能体循环。此举能最大程度保留智能体在OpenClaw中的原生行为模式,包括其上下文管理、工具调用和环境反馈机制。
轨迹收集完成后,会经过聚合、清洗和筛选:恢复完整的多轮对话,剔除系统心跳等无关信息,过滤异常轨迹,并根据验证器评分保留高质量样本。最终筛选出的轨迹平均包含13.00轮交互、18.67K个词元、15.82次工具调用和3.25种工具类型。
这意味着训练数据不再是短回复或单步调用,而是包含了任务规划、文件检查、工具执行、环境反馈和策略调整的、真正的多轮智能体监督数据。
基于这些轨迹,ClawGym对Qwen3系列模型进行了多轮监督微调,得到了ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B等模型。训练时对环境反馈进行了损失掩码,使模型专注于学习自身生成的推理、决策和工具调用部分。
此外,ClawGym还探索了沙盒并行强化学习。每个任务在独立沙盒中运行,并直接使用代码验证器提供结果奖励。实验表明,无论是从原始Qwen3-4B模型出发,还是从经过监督微调的ClawGym-30B-A3B出发,强化学习均能带来进一步的性能提升。
ClawGym-Bench:评估智能体是否真正“会做事”
ClawGym-Bench由200个经过严格筛选的任务构成,专门用于评估Claw Agent在真实工作区中的执行能力。与用于训练的数据集相比,它对任务质量和评测可靠性提出了更高要求。
为此,ClawGym-Bench采用了难度感知筛选,优先保留那些兼具挑战性与模型区分度的任务。每个候选任务都会经过“人类-大模型协同审查”:前沿大模型先对任务指令、输入资源、验证器进行诊断式检查,识别潜在歧义或验证漏洞,再由人类审查者最终确认。
在任务覆盖上,ClawGym-Bench涵盖了六类典型工作区场景:生产力与协作、系统与自动化、分析与推理、内容与领域支持、规划与知识管理以及软件开发。因此,它的作用不只是给出一个总分,更能深入分析模型在不同维度的能力差异,例如理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求并生成符合需求的最终产物。
实验结果:合成数据显著提升执行能力
实验数据表明,ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务上的表现。经过训练后,ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上的得分分别达到47.73、50.24和56.82,均显著超越其对应的基座模型。
值得注意的是,ClawGym-30B-A3B的得分甚至超过了规模大得多的Qwen3-235B-A23B模型。这说明,高质量的智能体交互数据能在一定程度上弥补模型规模的不足。
ClawGym-Bench也展现出良好的区分度。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81,形成了清晰的能力梯度。
更重要的是,ClawGym-Agents仅使用ClawGym-SynData训练,却在外部基准PinchBench上取得了明显提升。其中,ClawGym-30B-A3B达到了86.00的高分。这证明模型学到的并非合成任务的特定模板,而是可迁移的、通用的工作区执行能力。
行为分析:核心难点远超“工具调用”本身
Claw Agent面对的是一个持续演变的用户工作区。已有文件、目录结构、脚本输出、中间状态,共同决定了任务能否真正完成。因此,核心能力已不再是简单地“会调用工具”,而是能否将工作区一步步更新至满足用户要求的最终状态。
这具体体现在三个方面:
从工具调用到工作流组织。 Claw Agent需要将文件探索、信息读取、脚本执行、结果检查与产物验证串联成一个完整流程,而非执行孤立的工具调用。
从单步执行到长程恢复。在真实工作区中,路径错误、文件缺失、命令失败司空见惯。强大的模型能够将错误视为反馈并继续推进,而能力较弱的模型则容易在连续错误中迷失目标。
从生成答案到验证产物。 Claw Agent的产出不是一段文本,而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则及跨文件一致性等细粒度要求。
由此可见,Claw-style任务考察的并非单一的语言能力或简单的工具调用能力,而是智能体在状态化工作区中持续执行、从错误中恢复并确保最终产物正确性的综合能力。
结语
ClawGym的核心价值在于,它将Claw Agent的数据构建、能力训练与可靠评测连接成了一个完整的闭环。ClawGym-SynData提供了大规模、可执行、可验证的工作区任务;ClawGym-Agents则从OpenClaw的黑盒执行轨迹中学习如何在环境中行动;而ClawGym-Bench用于最终评估智能体是否真正完成了工作区任务。
ClawGym关注的焦点,不再是模型能否“说出答案”,而是模型能否在工作区中完成那些可检查、可验证的真实任务。对于Personal Agent而言,这正是其从对话能力走向真正执行能力的关键一步。
