ClawGym：高效训练可扩展智能体的权威指南

2026-05-20阅读 0热度 0

claw

OpenClaw等个人智能体环境的出现，标志着大模型的角色正在发生根本性转变：从“响应问题”的助手，演进为“交付结果”的执行实体。然而，与传统文本推理或单一工具调用相比，Claw-style环境带来了更复杂的挑战——如何让智能体在一个具备真实状态、可交互的持久化工作区中，通过连续操作达成用户指定的最终目标？

在这种新范式下，智能体面对的并非静态问题，而是一个由多样化资源构成的工作空间。它需要透过多轮交互，对文件系统进行读写、运行脚本、解析数据、修改文档，并依据环境提供的实时反馈动态调整其执行策略。

核心在于，Claw-style环境是一个高度交互的状态化执行框架。智能体的每个操作都会改变工作区的状态，而后续决策又完全依赖于这些动态生成的中间状态。任务的成败，不再取决于智能体是否声称完成，而是取决于工作区的最终状态是否符合所有预设标准：文件是否位于正确路径、表格计算是否精确无误、输出格式是否严格合规、跨文件逻辑是否保持一致性。

正是这种特性，使得面向Claw Agents的数据构建、模型训练与能力评估，其复杂度远超传统基准测试。当前研究多集中于静态问答、网页操作或限定工具调用，但对于这种开放式、长流程、多产物、且结果可客观验证的个人工作区任务，系统性的任务构造、轨迹采集与可靠评估体系，仍是一个显著的研究空白。

为填补这一关键缺口，我们推出了ClawGym——一个专为Claw Agents设计的一体化框架，旨在系统化串联数据合成、模型训练与可信评估。其目标不仅是提供任务集合，而是为构建Claw-style个人智能体，建立一个从任务生成、环境执行、轨迹学习到能力诊断的完整技术闭环。

ClawGym框架包含三个核心模块：

ClawGym-SynData：首个面向Claw Agents的大规模可执行合成数据集，涵盖13.5K个任务。
ClawGym-Agents：基于OpenClaw黑盒执行轨迹训练Claw Agent，并探索沙盒并行强化学习方案。
ClawGym-Bench：包含200个高质量任务的评估基准，覆盖六类工作区场景，用于诊断智能体的真实执行能力。

目前，该项目已开源其五项核心资源，涵盖评估基准、模型与完整训练管线，包括ClawGym-Bench评测数据与代码、ClawGym-Agents模型检查点、训练数据及训练代码，是目前最全面的OpenClaw训练与评测资源库。我们希望这些资源能为后续研究提供坚实基础，推动通用智能体向实际工作场景落地。

论文标题：ClawGym: A Scalable Framework for Building Effective Claw Agents
项目主页：https://github.com/ClawGym
作者机构：中国人民大学，至知研究院

为何Claw Agent需要全新的训练框架？

Claw-style任务更贴近真实的办公场景：用户提出目标，智能体需在本地工作区中进行一系列操作，直至最终状态达标。这种模式带来了几项核心挑战。

任务构造复杂。此类任务需覆盖个性化需求、真实工作流程及可行的操作序列，远非生成一个简单的提示词就能解决。

轨迹采集困难。OpenClaw这类系统高度封装，获取其长程、复杂的交互轨迹必须依赖黑盒推演，并需从原始执行日志中还原出高质量的训练数据。

训练稳定性要求高。尤其在强化学习阶段，模型需要在大量独立沙盒环境中并发推演，训练成本高昂，收敛稳定性也更难保障。

奖励信号难以定义。任务成功与否不取决于文本相似度，而是最终工作区状态是否正确，这需要对文件、结构、数值及多维产物质量进行精准的结构化验证。

ClawGym-SynData：构建可执行、可验证的工作区任务集

ClawGym-SynData是整个框架的数据基础，包含了13.5K个可执行任务。其构建遵循一个严谨的四步闭环：任务生成 → 资源准备 → 验证设计 → 质量评估。

双路线任务合成策略

为确保任务既反映真实用户需求，又能在工作区中被实际执行与验证，ClawGym采用了两种互补的合成路线：角色驱动的自上而下合成与技能驱动的自下而上合成。

第一条路线，角色驱动的自上而下合成，从“用户意图”出发。框架首先构建不同用户画像、工作场景及原子操作组合（如文件整理、数据分析、报告生成）。随后，模型基于这些要素生成具体任务指令，使任务更贴近办公、开发等场景中的实际需求，而非抽象的描述。

第二条路线，技能驱动的自下而上合成，则从“系统能力”出发。ClawGym会从OpenClaw的技能库中提取可复用的工具能力，通过技能标注、过滤与组合，确保生成的任务与OpenClaw的实际执行边界对齐，保证其可行性。

两条路线相互补充：前者保障了任务的真实性、场景多样性与用户意图的贴合度；后者则确保了任务的落地性、工具可用性与执行保障。二者结合，最终产出一批既符合真实工作流，又能在环境中被精确检查与评分的任务。

自动化模拟工作区生成

Claw-style任务不仅需要指令，还必须配备一个可操作的初始工作区。只有当任务所需的文件、字段、数据目录真实存在时，智能体才能执行具体操作，而非停留在文本建议层面。

为此，ClawGym会为每个任务自动生成轻量级的模拟工作区，包含Markdown、JSON、CSV、YAML、配置文件等多种格式的资源。这些资源均围绕任务目标构造，为执行过程提供需要读取、分析或修改的具体内容。

通过这种方式，每个任务都拥有了明确的初始状态和可控的数据条件。智能体必须基于工作区中的真实文件推进任务，而最终结果也可以依据文件路径、字段数值、逻辑约束等进行稳定验证。

混合验证机制设计

在验证设计上，ClawGym采用了基于代码的验证与基于量规的验证相结合的混合策略，同时覆盖客观正确性与主观质量要求。

基于代码的验证负责检查那些可用程序明确判断的维度，例如文件路径是否正确、JSON/CSV结构是否符合规范、数值计算与过滤逻辑是否准确。
基于量规的验证则用于评估更难完全代码化的质量维度，例如报告清晰度、摘要忠实度、表达专业性、内容完整性，以及最终产物是否真正满足用户深层意图。

二者结合，使得ClawGym不仅能判断智能体“是否执行了操作”，还能进一步评估其是否“执行正确”且“产出优质”。这确保了任务结果经得起结构、内容与质量的多重检验。

ClawGym-Agents：从真实执行轨迹中训练智能体

有了高质量的任务数据，下一步是模型训练。ClawGym通过OpenClaw黑盒推演收集真实的交互轨迹，而非重新实现一个简化的智能体循环。此举能最大程度保留智能体在OpenClaw中的原生行为模式，包括其上下文管理、工具调用和环境反馈机制。

轨迹收集完成后，会经过聚合、清洗和筛选：恢复完整的多轮对话，剔除系统心跳等无关信息，过滤异常轨迹，并根据验证器评分保留高质量样本。最终筛选出的轨迹平均包含13.00轮交互、18.67K个词元、15.82次工具调用和3.25种工具类型。

这意味着训练数据不再是短回复或单步调用，而是包含了任务规划、文件检查、工具执行、环境反馈和策略调整的、真正的多轮智能体监督数据。

基于这些轨迹，ClawGym对Qwen3系列模型进行了多轮监督微调，得到了ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B等模型。训练时对环境反馈进行了损失掩码，使模型专注于学习自身生成的推理、决策和工具调用部分。

此外，ClawGym还探索了沙盒并行强化学习。每个任务在独立沙盒中运行，并直接使用代码验证器提供结果奖励。实验表明，无论是从原始Qwen3-4B模型出发，还是从经过监督微调的ClawGym-30B-A3B出发，强化学习均能带来进一步的性能提升。

ClawGym-Bench：评估智能体是否真正“会做事”

ClawGym-Bench由200个经过严格筛选的任务构成，专门用于评估Claw Agent在真实工作区中的执行能力。与用于训练的数据集相比，它对任务质量和评测可靠性提出了更高要求。

为此，ClawGym-Bench采用了难度感知筛选，优先保留那些兼具挑战性与模型区分度的任务。每个候选任务都会经过“人类-大模型协同审查”：前沿大模型先对任务指令、输入资源、验证器进行诊断式检查，识别潜在歧义或验证漏洞，再由人类审查者最终确认。

在任务覆盖上，ClawGym-Bench涵盖了六类典型工作区场景：生产力与协作、系统与自动化、分析与推理、内容与领域支持、规划与知识管理以及软件开发。因此，它的作用不只是给出一个总分，更能深入分析模型在不同维度的能力差异，例如理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求并生成符合需求的最终产物。

实验结果：合成数据显著提升执行能力

实验数据表明，ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务上的表现。经过训练后，ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上的得分分别达到47.73、50.24和56.82，均显著超越其对应的基座模型。

值得注意的是，ClawGym-30B-A3B的得分甚至超过了规模大得多的Qwen3-235B-A23B模型。这说明，高质量的智能体交互数据能在一定程度上弥补模型规模的不足。

ClawGym-Bench也展现出良好的区分度。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81，形成了清晰的能力梯度。

更重要的是，ClawGym-Agents仅使用ClawGym-SynData训练，却在外部基准PinchBench上取得了明显提升。其中，ClawGym-30B-A3B达到了86.00的高分。这证明模型学到的并非合成任务的特定模板，而是可迁移的、通用的工作区执行能力。

行为分析：核心难点远超“工具调用”本身

Claw Agent面对的是一个持续演变的用户工作区。已有文件、目录结构、脚本输出、中间状态，共同决定了任务能否真正完成。因此，核心能力已不再是简单地“会调用工具”，而是能否将工作区一步步更新至满足用户要求的最终状态。

这具体体现在三个方面：

从工具调用到工作流组织。 Claw Agent需要将文件探索、信息读取、脚本执行、结果检查与产物验证串联成一个完整流程，而非执行孤立的工具调用。

从单步执行到长程恢复。在真实工作区中，路径错误、文件缺失、命令失败司空见惯。强大的模型能够将错误视为反馈并继续推进，而能力较弱的模型则容易在连续错误中迷失目标。

从生成答案到验证产物。 Claw Agent的产出不是一段文本，而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则及跨文件一致性等细粒度要求。

由此可见，Claw-style任务考察的并非单一的语言能力或简单的工具调用能力，而是智能体在状态化工作区中持续执行、从错误中恢复并确保最终产物正确性的综合能力。

结语

ClawGym的核心价值在于，它将Claw Agent的数据构建、能力训练与可靠评测连接成了一个完整的闭环。ClawGym-SynData提供了大规模、可执行、可验证的工作区任务；ClawGym-Agents则从OpenClaw的黑盒执行轨迹中学习如何在环境中行动；而ClawGym-Bench用于最终评估智能体是否真正完成了工作区任务。

ClawGym关注的焦点，不再是模型能否“说出答案”，而是模型能否在工作区中完成那些可检查、可验证的真实任务。对于Personal Agent而言，这正是其从对话能力走向真正执行能力的关键一步。