这项由中国人民大学高瓴人工智能学院、IQuest Research及北京航空航天大学联合开展的研究,于2026年4月29日以预印本形式发布,论文编号为arXiv:2604.26904,题为《ClawGym: A Scalable Framework for Building Effective Claw Agents》。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
---
你有没有遇到过这样的场景:让AI帮你整理一堆散落在电脑各处的工作文件,结果它要么找错了地方,要么做了一半就卡住了,要么干脆不知道该怎么办?这种尴尬,正是当前AI助手的真实写照。研究团队把这类需要AI在电脑上"实际动手干活"的任务称为"Claw风格任务"——顾名思义,AI得像一只灵活的爪子,在你的电脑环境里翻找文件、调用工具、一步步完成复杂工作。
然而,即便是最先进的大型语言模型,在面对这类任务时也常常手忙脚乱。那些能力稍弱的模型更是举步维艰——它们要么跟不上多步骤的操作指令,要么选错了工具,要么一遇到报错就束手无策。问题的根源并不仅仅在于模型本身不够聪明,更在于整个AI训练体系严重缺乏这类"在真实电脑环境里干活"的训练数据和配套工具。
这支研究团队决定从根本上解决这个问题。他们构建了一套名为ClawGym的完整框架,就像给AI搭建了一座"综合训练营"——从生成训练题目,到在模拟环境里练习,再到用专门设计的考试来检验成果,全程一条龙。接下来,就带你详细拆解这座训练营的每一个环节。
---
一、为什么"在电脑上干活"对AI来说特别难
要理解这项研究的价值,得先搞清楚Claw风格任务到底难在哪里。
普通的AI问答就像做选择题——你给出问题,它给出答案,对不对一目了然。但Claw风格任务更像是让AI当你的私人助理,坐在你的电脑前替你干活。比如,你让它"找出项目文件夹里所有文件名包含'销售'的CSV表格,把它们合并成一个文件,加上一列标注每行数据来自哪个原始文件,然后保存到输出文件夹里"。这中间涉及搜索文件、读取内容、检查格式是否兼容、合并数据、添加新列、保存文件……每一步都得做对,而且必须按顺序来。
更复杂的是,这类任务的"好不好"很难用简单的对错来衡量。生成的文件存在了吗?内容对了吗?格式符合要求吗?有没有丢数据?这些问题需要专门设计的"验证器"来逐一检查。此外,不同用户的需求千差万别——程序员、会计、设计师、研究员,他们在电脑上干的活完全不一样,任何一套训练数据都很难覆盖所有场景。
研究团队把这类任务的挑战归结为三个核心难点。第一,任务必须贴合真实用户的个性化需求,不同职业、不同工作流程的人有截然不同的操作习惯,很难用一套统一的模板涵盖足够多的真实场景。第二,任务通常需要多步操作,中间夹杂着文件读写、工具调用、数据验证等环节,每一步都可能出错,自动化地判断最终结果对不对本身就是个难题。第三,任务需要真实的"工作环境"作为背景,AI必须有具体的文件、配置、数据可以操作,凭空给它一个任务描述是没法训练出真本事的。
正因如此,这个领域长期缺乏大规模的训练数据,也缺乏系统性的训练框架。这就是ClawGym要填补的空白。
---
二、训练营的第一块基石:如何批量"造题"
ClawGym框架的第一个核心组件叫做ClawGym-SynData,本质上是一个大规模合成数据集,包含1.35万个经过精心筛选的训练任务。这些任务不是人工一条条写出来的,而是通过两条互补的"造题流水线"自动生成的。
第一条流水线叫做"自上而下的人物角色驱动合成"。这条流水线的逻辑是:先确定"这个任务的主人公是谁",再根据主人公的身份生成合适的任务。具体来说,系统首先从一个包含十亿个人物档案的库里抽取一个角色,比如一位在快消公司工作的数据分析师,然后从9大类、43个子类的场景分类体系里选一个场景,比如"数据分析与报告",再从7类、26种基本操作里搭配几个具体动作,比如"下载文件"、"提取数据"、"写入结果"。把这三个要素组合成一个"任务种子"之后,再让GPT-5这类强大的语言模型根据种子扩展出一道完整的任务指令。
这种方式有点像在写电视剧剧本:先设定角色背景,再设定场景,最后让角色在场景里做具体的事情。不同角色、不同场景、不同操作的组合会产生大量风格各异的任务,覆盖的真实场景更全面,生成的任务也更贴近真实用户的需求。从最终的数据分布来看,没有任何一个场景类别占比超过12.5%,各类操作的分布也相当均匀,说明这条流水线确实产出了覆盖广泛的多样化任务。
第二条流水线叫做"自下而上的技能驱动合成"。这条流水线的出发点不是"用户是谁",而是"AI能做什么"。研究团队从OpenClaw平台的技能库(ClawHub)里收集了大约3万个原始技能模块,每个模块都是一个已经实现好的具体能力,比如"从网页抓取特定字段"或者"把多个PDF合并成一个"。他们先用MiniMax-M2.5模型对这些技能进行自动标注和筛选,保留了大约1.6万个适合用来造题的技能。然后,每次取一个主技能加上最多三个辅助技能,让GPT-5把这些技能组合成一道完整的任务。这样生成的任务天然地锚定在AI能实际执行的操作上,不会提出一些根本做不到的要求。
从保留下来的技能分类来看,开发工具类和数据与API类占比最大,其次是工作流、自动化、安全、提示词和MCP工具等类别,涵盖了编程开发、数据处理、系统自动化等多个维度。
两条流水线的角色分工是互补的:第一条确保任务贴近真实用户场景,第二条确保任务在技术上是可执行的。后续的实验也证明,把两条流水线的产出混合起来训练的效果,明显优于单独使用任何一条的效果。
---
三、给每道题配好"作业本"和"评分标准"
光有任务指令还不够——AI要完成任务,得有具体的文件和环境可以操作;而要评判AI做得对不对,还需要有专门的验证机制。这就是ClawGym数据生成流程的第二和第三个阶段。
在资源准备阶段,系统会为每道任务自动生成配套的"作业材料"。以文件管理类任务为例,系统会根据任务描述推断需要哪些文件,包括文件路径、文件类型和内容要求,然后用GPT-5生成对应的模拟文件并放置到指定位置。对于文本或Markdown文件,内容会包含任务所需的实体、约束条件和参考材料;对于JSON、CSV或YAML这类结构化文件,系统会生成带有明确字段和数值的数据表,这样后续的验证程序就可以通过重新计算统计数字或检查输出是否与输入一致来判断任务是否完成正确。这种做法确保每道题都是自给自足、可重复执行的,也避免了使用真实用户文件带来的隐私风险。
在验证设计阶段,研究团队采用了一套混合验证方案,把"死板但精确"的代码验证和"灵活但主观"的评分标准验证结合起来。
代码验证负责检查那些有明确对错的要求,比如输出文件是否存在、JSON字段是否符合规定、计算出来的数字是否正确、生成的内容是否包含必要的信息。每一个验证点都产出0或1的二值结果,最后取平均值作为代码验证得分。值得注意的是,这套验证程序还会做"交叉验证"——检查输出内容是否与输入文件里隐含的约束条件一致,比如重新计算一遍原始CSV里的统计数字,确认AI的输出没有凭空捏造数据。
评分标准验证则负责那些无法用代码精确衡量的质量要求,比如一封邮件的措辞是否专业得体,一份报告的结构是否清晰,一段摘要是否忠实地保留了关键信息而没有过度发挥。每个评分维度使用0、0.25、0.5、0.75、1.0五个档位打分,各维度默认等权重,最后取加权平均值作为评分标准验证得分。
最终的任务得分是两类验证得分的加权组合,代码验证占70%,评分标准验证占30%。这个比例反映了一个基本判断:Claw任务的完成质量首先要体现在具体的、可验证的工作区变化上,文件该在哪就得在哪,数字算对了才算对;而文字表达的优雅程度是锦上添花,权重自然低一些。
---
四、筛掉"烂题":自动质量把关的四道关卡
有了大批量自动生成的任务,下一个问题就是:怎么保证这些任务的质量?毕竟,拿着一堆描述含糊、根本没法完成或者太简单没有区分度的任务去训练AI,效果可想而知。研究团队设计了一套自动化质量评估流程,从任务质量和验证质量两个维度分别把关。
任务质量的评估分三个维度展开。第一个维度是新颖性:系统计算每个新生成任务与已有任务库之间的相似度,如果相似度超过阈值,就视为重复题目予以剔除。这一步防止的是"换汤不换药"的问题——大量高度相似的任务不仅浪费训练资源,还会让模型在这类任务上过度拟合,在真实场景里反而不灵活。第二个维度是合理性:用GPT-5.4作为评判模型,判断每道任务是否清晰、内部一致,以及作为一个Claw风格的用户请求是否合乎逻辑。特别要检查的是,任务有没有依赖不存在的系统工具、不支持的服务或不现实的软件集成。第三个维度是难度:同样用GPT-5.4来估计任务的预期完成复杂度,包括需要多少步操作、涉及多少种工具类型、需要多少跨资源的规划和推理。难度评估的目的不是筛掉难题,而是确保最终的数据集里既有简单任务也有挑战性任务,难度分布合理均衡。
验证质量的评估同样关键,因为验证器本身的好坏直接决定了整个训练信号的可靠性。对于代码验证器,系统做两件事:第一,把任务的初始工作区准备好(只有输入文件,没有任何AI产出的输出),然后运行验证器——如果这时候验证器就给出了不低的分数,说明验证器太宽松了,不能区分"任务已完成"和"任务没开始";第二,用GPT-5.4来检查验证器对任务要求的覆盖程度(有没有遗漏重要检查点)以及是否有过于苛刻的地方(比如要求精确的格式或措辞,而这些并不是任务明确要求的)。对于评分标准验证器,则检查每条评分维度是否真的在评价代码验证无法覆盖的质性方面,而不是在重复已经由代码验证处理过的内容。
研究团队还对随机抽取的50个训练任务做了人工质量评估,从任务合理性、执行可行性、资源一致性和验证质量四个维度打1到5分。结果显示综合平均分为4.06分,其中任务合理性(4.46分)和资源一致性(4.36分)得分最高,执行可行性相对较低(3.50分),这反映了部分任务在环境假设和多步操作复杂性上确实存在一定挑战,但总体质量达到了可用于训练的标准。
---
五、让AI在"真实环境"里练习:轨迹收集与筛选
有了高质量的任务库,接下来要做的是收集AI实际完成这些任务的过程记录,也就是所谓的"交互轨迹"。这些轨迹是后续训练的直接原材料。
研究团队的做法有点特别。他们没有另起炉灶搭建一套模拟环境,而是直接在真实的OpenClaw运行环境里收集数据。他们在一个分布式集群上部署了多个OpenClaw的Docker容器,每个容器都是一个独立的可执行黑箱系统。对于每道训练任务,他们把任务描述和对应的工作区文件分配给一个Docker容器,然后让OpenClaw运行时系统驱动AI完成任务。为了在不修改任何AI逻辑的前提下记录整个过程,他们在系统外层加了一个"代理层",拦截并记录每一次模型输入、模型输出、工具调用和环境反馈。
为了获得更丰富多样的轨迹数据,他们用了两个不同的"教师模型"来执行任务:MiniMax-M2.5和GLM-5.1。把两个模型产出的轨迹混合起来,既增加了数据量,也引入了不同的解题风格,有助于训练出更稳健的学生模型。
收集到原始轨迹之后,还需要进行整理和筛选。整理阶段的主要工作是把零散的请求记录重新拼接成完整的多轮对话序列,同时剔除一些系统性干扰:长时间运行的会话里有时会出现系统心跳信号或定时提示,这些内容对解题没有贡献,需要删除;另外,某些工具在远程执行环境里根本不可用(比如画布相关操作),包含这类工具调用的轨迹也要过滤掉。
筛选阶段采用的是基于验证器得分的阈值过滤策略。由于混合验证器产出的是0到1之间的连续分数,传统的"只保留完全正确的轨迹"这种做法并不适用——毕竟不是每道题都能做到满分,但得了70分的轨迹里依然有很多值得学习的操作步骤。研究团队的解决方案是设定一个分数阈值(最终选定的是0.5),只保留验证器得分超过该阈值的轨迹。后续的消融实验证明,0.5确实是一个平衡点:阈值过低会混入太多质量差的示范,阈值过高则会丢掉很多虽然不完美但包含有用错误恢复模式的轨迹。
经过整理和筛选之后,最终得到了2.45万条高质量交互轨迹。统计数据显示,每条轨迹平均包含13轮交互、约1.867万个词元(token)、15.82次工具调用,以及平均3.25种不同的工具类型。这些数字说明保留下来的轨迹确实是有实质内容的多步骤操作记录,而不是简单的一问一答。
---
六、正式开课:监督微调和强化学习双管齐下
有了2.45万条高质量轨迹,训练阶段就可以正式开始了。研究团队选用了阿里巴巴的Qwen3系列模型作为基础,分别训练了4B、8B和30B-A3B三个规模的版本,对应ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B。
训练过程中有两个细节值得关注。第一,Claw任务的交互轨迹通常很长,远超模型在普通指令微调时处理的文本长度。对于原生上下文窗口只有3.2万词元的Qwen3-8B,研究团队使用了YaRN技术把有效上下文长度扩展到6.4万词元,让模型能够处理更长的多轮交互记录。第二,训练时采用了专门针对智能体数据的"多轮损失掩码"策略:模型不需要学习预测工具执行返回的观测结果(这些是环境给出的,不是模型应该生成的),训练目标只集中在模型自己产出的那些部分,也就是推理过程、决策判断和工具调用指令。这样做是为了让模型学会"如何在环境里行动",而不是死记硬背"环境在各种情况下会给出什么反馈"。
除了监督微调,研究团队还探索了强化学习路径。他们搭建了一套轻量级的沙盒并行训练流水线:每道任务都在一个独立的沙盒容器里运行,这些沙盒可以同时并行执行而不会相互干扰。强化学习的奖励信号直接来自代码验证器的评分,不需要另外训练奖励模型。训练算法使用的是GRPO,学习率设为1e-6,每道题滚动8次,共训练100步。他们从两个出发点做了强化学习实验:一个是从未经过ClawGym微调的Qwen3-4B指令版本出发,另一个是从已经经过ClawGym监督微调的ClawGym-30B-A3B出发。两个实验都显示出评估分数的提升,说明这套强化学习流水线既可以单独使用,也可以在监督微调之后进一步叠加效果。
---
七、考场搭建:如何打造一个公平可靠的测试集
训练好的模型当然需要接受检验。研究团队专门构建了一套名为ClawGym-Bench的评测基准,包含200道精心筛选的任务实例,覆盖六大类场景:生产力与协作(44道,涵盖日常办公、消息通知、日程安排等)、系统与自动化(42道,涵盖系统检查、工作流自动化、环境配置等)、分析与推理(35道,涵盖数据分析、技术决策、问题解决等)、内容与领域支持(28道,涵盖专业写作、报告、对外沟通等)、规划与知识(26道,涵盖信息收集、知识整理、规划类工作等)以及软件开发(25道,涵盖代码实现、调试、测试、重构等)。
这200道题并不是随机挑选的,而是经过严格的三轮筛选流程。第一轮是一般性的任务质量和验证质量过滤,和前面描述的训练数据筛选流程一样。第二轮是基于难度的滚动测试筛选:用一个强大的LLM和一个较小的LLM分别对每道候选题做4次测试,计算各自的平均得分。只有同时满足三个条件的题目才能保留:强模型的平均得分不低于0.2(太难的题目连强模型都做不好,说明题目可能有问题);小模型的平均得分不超过0.6(太简单的题小模型轻松搞定,没有区分价值);强模型的得分高于小模型(这道题能区分出不同能力的模型)。第三轮是人机协作审核:先让GPT-5.4对每道候选题做详细的诊断分析,检查任务是否清晰可行、输入资源是否支持任务、验证代码是否合理、评分标准是否起到了补充作用,然后由人工审核员检查AI的反馈意见,最终决定接受、修改还是拒绝每道题。
这套测试集还做了稳定性验证:分别让Qwen3-8B和Qwen3-30B-A3B在50道题上各跑5次,Qwen3-8B的标准差只有0.3%,Qwen3-30B-A3B的标准差只有1.0%,说明在这个测试集上的评分结果是高度可重复的,不会因为随机性而产生很大波动。
---
八、考试成绩单:ClawGym培训出来的AI表现如何
这一部分是整个研究最关键的实证结果,堪称ClawGym框架的"成绩单"。
在ClawGym-Bench上,专有前沿模型群体里,Claude-4.7-Opus以77.81分的综合均分领跑,GPT-5.4和Gemini-3-Flash紧随其后,均约73分。开源前沿模型群体里,GLM-5.1以71.12分居首,MiniMax-M2.7相对较弱(63.72分)。
更有意思的是中小规模开源模型的表现。原始的Qwen3-8B只有35.02分,而经过ClawGym训练后的ClawGym-8B提升到了50.24分,涨幅约43%。体量更大的Qwen3-30B-A3B原本得45.11分,训练后ClawGym-30B-A3B达到56.82分,涨幅约26%。特别值得关注的是,ClawGym-30B-A3B的56.82分已经超过了参数量足足大8倍的Qwen3-235B-A23B(54.48分)。这说明高质量、针对性的智能体交互数据,在一定程度上可以弥补模型规模的差距。
在另一个公开测试集PinchBench上,ClawGym-30B-A3B更是打出了86.00分的高分,超过了Claude-4.6-Opus(75.30分)、GPT-5.4(68.30分)和DeepSeek-V3.2(60.80分)等多个顶级模型,在所有受测模型中仅略低于Gemini-3-Flash(88.70分)。由于ClawGym-Agents从未见过PinchBench的任务,这个成绩有力地说明了通过ClawGym训练获得的能力是可以迁移到新场景的,而不是对训练数据的死记硬背。
从各类别的细分成绩来看,没有哪个模型在所有类别里都占主导地位。Claude-4.7-Opus拿下最高综合均分,但GPT-5.4在"生产力与协作"类别里得了76分,Gemini-3-Flash则在"软件开发"类别里以84分领先。这种类别间的分化说明ClawGym-Bench确实在考察不同维度的能力,能够揭示出模型各自的特长和短板。
在消融实验方面,研究团队还做了三组对比分析。关于训练轮次,他们发现在第三个训练轮次(约309步)时性能达到峰值,之后开始缓慢下降,说明在合成数据上训练太久会出现轻微过拟合,选择合适的停止时机很重要。关于轨迹过滤阈值,0.5是最优选择,过高或过低都会带来性能下降。关于双路合成策略,混合使用角色驱动和技能驱动两条流水线的效果,始终优于单独使用任何一条,对于Qwen3-8B模型,混合策略在ClawGym-Bench和PinchBench上分别比纯角色驱动高0.8分和2.17分,比纯技能驱动高1.18分和7.45分。
---
九、解剖AI的"工作方式":三个典型案例分析
研究团队还对AI完成具体任务时的行为模式做了深入分析,通过对比GPT-5.4和Qwen3-30B-A3B在同一批任务上的表现差异,揭示出了三类重要的能力差距。
第一类差距体现在工具使用的合理性上。研究团队展示了一道CI构建产物审计任务:AI需要从一批JSON文件里按仓库和产物名分组,计算尺寸统计数据,统计缺失尺寸和关键实例的数量,最后生成两份报告文件。GPT-5.4的策略是先展开文件路径通配符,检查JSON的数据结构,然后编写一段Python聚合脚本来计算两份报告,打印出关键数值供后续验证——整个过程是"发现-检查-计算-验证"的有序流水线,最终得满分。Qwen3-30B-A3B则在初始通配符读取失败后,改用find命令找到文件并逐个读取,但后续没有建立起可靠的聚合和验证机制,最终在摘要字段、分组计数、过滤语义和关键实例检查等多个环节出现错误,只得到0.308分。差距的本质不在于哪个模型调用了更多工具,而在于GPT-5.4能把工具调用组织成一个有内在逻辑的管道,而不是孤立地执行一个个操作。
第二类差距体现在长程执行的健壮性上。有一道任务要求AI为客服工单批次构建本地自动化流程,生成工单改写版本、批次统计指标、团队通知,以及一个可以安全重复运行的状态跟踪文件。GPT-5.4在遇到可选的内存文件缺失时,判断这不是阻断性错误,继续向下执行;后来一条清理命令被执行守卫拒绝,它没有反复尝试这条命令,而是绕过去重置状态文件,重新运行主程序,最后验证处理结果里两个批次都在、没有重复——整个过程体现了"把错误当作可恢复的执行反馈而非终止信号"的能力。Qwen3-30B-A3B则在遭遇多次文件缺失错误后没能建立稳定的恢复方案,最终在一个需要审批的步骤上陷入死局,必要的产出文件和状态跟踪都没有生成,只得到0.067分。
第三类差距体现在细粒度指令遵循上。一道重订单计划任务要求AI根据两个CSV文件生成报告,其中有一条核心规则:只保留当前库存数量小于等于再订购临界值的行。GPT-5.4严格按规则过滤数据,计算下游供应商汇总,生成完整的供应商级JSON文件,最终满分。Qwen3-30B-A3B生成了看起来格式正确的CSV和JSON文件,但在过滤这一步出了问题——它把"演示文件夹"(库存12,临界值10)、"修正带"(库存9,临界值7)、"消毒湿巾"(库存8,临界值5)这几条不符合条件的记录也包含进了结果,这个错误进而传播到了供应商汇总和各供应商JSON文件里,最终得0.429分。这个案例说明,AI产出的文件在表面上可以看起来很合理,但细节上的规则遵循错误会悄悄污染所有下游产出,这类错误在人工检查时很容易被遗漏,需要有针对性的精细验证机制才能发现。
---
说到底,ClawGym解决的是一个非常实际的问题:怎么让AI助手在真实的电脑环境里真正"能干活",而不只是能说漂亮话。这支研究团队的答案是:搭建一整套完整的训练体系,从批量造题、准备环境、设计评分,到筛选高质量练习记录,再到训练模型、构建测试集,每个环节都有系统性的方法论支撑。
这项研究的意义在于它提供了一套可复用的范式。不同规模的模型在经过ClawGym训练后,在完成文件操作、数据处理、系统自动化等真实电脑任务上都获得了显著的能力提升,而且这种提升可以迁移到训练数据之外的新场景。当然,研究也揭示出当前AI助手仍然存在的明显短板:在遇到工具执行错误时的自我修复能力、在长链任务里保持上下文一致性的能力、以及严格遵循细粒度约束条件的能力,都还有相当大的提升空间。
这些发现为未来的研究划出了清晰的方向:如何在训练数据里刻意纳入更多错误恢复的示范案例?如何设计更精细的中间步骤监督信号,而不仅仅关注最终结果?这些问题的答案,将决定下一代AI助手能否真正成为你电脑里那只得力的"爪子"。
---
Q&A
Q1:ClawGym框架与普通的AI训练方法有什么本质区别?
A:普通的AI训练大多针对问答或推理任务,评判标准简单明确。ClawGym专门针对"在真实电脑环境里多步操作"这类任务,它创新地结合了两种造题流水线(按用户角色造题和按AI技能造题)、自动生成配套的模拟工作区文件、混合代码验证与评分标准验证两套评判机制,并通过在真实OpenClaw环境里收集高质量交互轨迹来进行监督微调。整个框架覆盖了数据生成、模型训练和评测基准构建的完整生命周期。
Q2:ClawGym-30B-A3B为何能在PinchBench上超过参数量更大的模型?
A:参数量大不代表一定更擅长完成具体的工具操作类任务。ClawGym-30B-A3B经过了2.45万条真实OpenClaw交互轨迹的针对性微调,这些轨迹涵盖了多步文件操作、工具调用、错误处理等真实场景,让模型学到了完成这类任务的具体操作模式。Qwen3-235B-A23B虽然参数量更大,但没有经过这类针对性训练。这说明在专项能力培养上,"刻意练习"的效果有时候能弥补规模上的差距。
Q3:ClawGym-Bench测试集是怎么保证题目质量的,为什么不会出现"题目本身就有问题"的情况?
A:ClawGym-Bench经过三轮严格筛选:先做一般性质量和验证可靠性过滤,再用强弱两个模型各跑4次测试来确保题目既不过难也不过易且具有区分度,最后由GPT-5.4做详细诊断分析后由人工审核员做最终裁决。此外,每道题都经过了"可解性验证"——要么有强模型实际做到满分的记录,要么有人工构造的参考答案验证确实可以得满分,确保失败只反映模型的能力限制而非题目设计的缺陷。