AI自出题：电脑操控正确率飙升18%，NVIDIA联手华盛顿大学

2026-06-22阅读 0热度 0

IDIA

这项由NVIDIA与华盛顿大学联合推进的研究，以技术报告形式于2026年6月15日发布，编号为arXiv:2606.17321v1，归属于计算学习领域(cs.LG)。通过该编号可在arXiv平台检索完整论文。

想象一下，教一个从未接触电脑的人打字——先指出键盘位置，再引导寻找字母，最后演示保存文件，每一步都离不开现场指导。如今，研究人员面对的挑战更严峻：训练AI仅凭屏幕截图，像真人一样操作电脑——打开文档、填写表单、切换应用。这类系统被称为“电脑操控智能体”(Computer-Use Agent, CUA)。

关键瓶颈在于，训练这样的AI需要海量“示范录像”——即人类完整操作电脑的记录，涵盖每一帧截图、每次鼠标点击和键盘输入。收集这类数据成本极高，每条训练数据对应一台满载软件和真实文件的虚拟机，还需人工手动跑完流程。这与训练AI写文章时直接抓取网页文本的做法截然不同。

为此，NVIDIA与华盛顿大学研究团队另辟蹊径：与其投入巨资收集人类示范，不如让AI自行出题、解题、留痕。这套系统命名为ProCUA-SFT，最终产出310万条训练样本，散布于9.3万条完整操作轨迹，覆盖2484种应用组合。训练一轮后，被测试的AI模型在业界标准测试集OSWorld上的成功率从26.3%跃升至45%，提升18.7个百分点。

这个数字意味着什么？继续往下看。

一、为什么人类示范反而“帮了倒忙”

在ProCUA-SFT问世前，该领域最大的公开数据集叫AgentNet，包含2.25万条真人操作轨迹，覆盖三个操作系统。按理说，真人亲自上阵，效果应该更优。

然而实验结果令研究团队大为震惊。他们使用AgentNet继续训练一个原本表现尚可的模型(UI-TARS 7B，基础成功率26.3%)，结果模型在OSWorld上的成功率直接跌至8%到10%——比不做任何训练还差一半。这种“越学越糟”的现象在机器学习中有专门术语：负迁移，意味着新学的内容不仅无益，反而干扰了原有能力。

研究团队分析后归结为三点。第一，AgentNet中任务类型过于单一，绝大多数是单应用内的简易操作，平均每条轨迹仅17步，极少涉及多应用间的切换。第二，数据中缺少跨应用推理的场景，而OSWorld测试恰好重点考查这类能力。第三，众包收集的标注质量参差不齐，噪声明显。

换言之，用这批数据训练，好比让一个厨师反复只炒一道白菜，然后去参加满汉全席比赛——非但无益，反而打乱原有节奏和手感。

既然真人示范存在这些硬伤，研究团队决定走向另一个极端：完全使用合成轨迹。但合成数据同样有其陷阱。

二、合成数据的老毛病：让AI去开一扇根本不存在的门

合成数据最常见的翻车模式是什么？简单说——AI根据屏幕截图随手生成一个任务，例如“打开桌面上的Q3财务报告并添加图表”。可问题在于，桌面上根本没有这个文件。AI兴冲冲去执行，结果四处找不到，整条操作轨迹从一开始就无效。这种废轨迹不仅浪费计算资源，更糟糕的是，若混入训练数据，AI会学会“凭空捏造”——文件不存在时假装找到，应用未安装时假装打开。

这就像一个学徒厨师从未见过真食材，每次菜谱上写着“取一颗鲜松露”，但厨房里根本没有松露。这种训练只会培养出会说谎的厨师，而非真正会做菜的人。

为了解决这个问题，研究团队设计了一套“先确认食材，再写菜谱”的机制，这也是ProCUA-SFT整个流水线最核心的创新。

三、“出题前先核查条件”：让每道题都有解

ProCUA-SFT的数据生成流程，起点是一台刚启动的虚拟Linux桌面。接下来的事情可以用“厨房备课”来理解：正式开始烹饪前，先仔细清点冰箱里有什么、炉子是否开启、锅具是否齐全。

具体来说，整个流程只用一个视觉语言大模型——Kimi-K2.5，它在不同环节扮演三种角色：出题者、核查者和执行者。

出题者负责观察当前桌面截图，结合操作系统配置信息(比如桌面上放置了哪些文件、哪些应用被预启动、哪些网页已打开)，同时参考一批真实人类任务作为风格模板，然后生成一个目标任务和一组二值条件判断题。所谓二值条件判断题，即一系列只有“是”或“否”两个答案的明确问题，例如“Q3.xlsx文件是否存在于桌面上？”“LibreOffice Calc是否已安装？”“屏幕是否处于解锁状态？”这些问题非常具体，每条都能被清楚判断。

核查者则逐条核实这些条件——同样使用Kimi-K2.5，但换了一套提示词——看着当前桌面截图，逐条给出“通过”或“不通过”。只有所有条件都通过时，这个任务才能进入下一步实际执行。如果有任何条件不通过，整个任务被退回，失败条件被如实记录并反馈给出题者，让其重新出一道更贴合当前环境的题。这个出题-核查-退回的循环可以重复多轮，直到找到完全可行的任务，或者判定当前桌面环境实在出不了好题为止。

这套机制的巧妙之处在于两点。一是要求出题者在提出目标的同时必须给出可验证的条件，逼迫其说具体话，不能含糊。二是系统配置信息也会同步给核查者，因此即使某个文件是通过后台脚本静默上传到磁盘的、桌面上没有直接显示，核查者也能知道它的存在，任务多样性因此大大扩展。

四、给桌面填充真实世界的复杂内容

光有“出题前核查条件”还不够——如果桌面上只有空白的新建文档或默认模板，AI能练到的技能就非常有限，好比厨师在只有白开水的厨房里练手，永远学不会处理复杂食材。

于是研究团队从三个来源向桌面“注入”真实内容。

第一类是OSWorld提供的初始配置快照。OSWorld是该领域的权威测试基准，本身附带一批多应用启动状态，涵盖网页浏览、终端操作和办公软件。排除需要Google Drive账号的配置后，团队将这些快照用作训练数据的一部分，主要保证数据覆盖面。

第二类是SpreadsheetBench中的912个真实电子表格。这些表格从网上的Excel论坛收集而来，规模惊人——有的超过100列，有的超过2万行，包含复杂的多表交叉引用、非标准布局和各种非文字内容。每个表格被上传到虚拟桌面并在LibreOffice Calc中打开，让AI有机会练习真正的复杂表格操作：跨表聚合数据、绘制图表、导出为PDF或CSV等。

第三类是Zenodo10K，一个包含约1万个演示文稿(.pptx格式)的公开数据集，全部采用CC-BY 4.0开放许可协议。这些文件来自Zenodo开放科研平台，研究人员在上面发布论文时通常同时上传幻灯片、附录和数据文件，它们被统一编入同一个“父记录”。研究团队充分利用这个特性：每次训练时随机选取一个父记录，将其下属所有文件全部上传到桌面，然后随机打开一到三个演示文稿，其余文件留在桌面作为“旁观者文件”，让AI有机会通过文件管理器去发现和使用它们。这就模拟了真实用户的工作环境——桌面上往往同时放着多个相关文件，而不是孤零零一个。

这三类内容组合起来，配合之前的“先核查再出题”机制，使得每个生成的任务既真实复杂，又明确可行——既能难倒AI，又不至于难到无解。

五、同一个AI既出题又解题，消除“眼高手低”

传统的数据合成流程往往分两个阶段：先由能力强的规划模型制定目标，再由执行模型去完成。这种分工看似合理，实则暗藏风险——如果规划者比执行者强太多，就会出一些执行者根本完不成的题，大量轨迹走到一半就废了，甚至还会教会模型“接受不可能的任务并硬撑下去”。

ProCUA-SFT让Kimi-K2.5一手包揽三个角色：出题、核查、执行全由同一个模型完成，只是在不同环节使用不同的提示词。这样一来，出题者的认知边界和执行者的能力边界完全重合——它不会出自己做不到的题，也不会因为“规划者和执行者不是同一个大脑”而产生信息断层。

在执行阶段，模型每步都会看到当前桌面截图、总目标和一段滑动窗口内的历史记录，然后输出一段推理思考(用...包裹)和具体的操作代码。操作代码要么是pyautogui指令(包括点击、移动光标、按快捷键、输入文字、滚动、拖拽等)，要么是两个特殊控制函数之一：wait()用于等待程序加载，terminate(status, answer)用于主动宣布任务完成或失败，并可选填文字答案。

关于历史记录的处理，研究团队有一个精心设计。由于高清截图占用大量内存和算力，他们规定：最近三步的截图以完整图像形式保留，更早的步骤则被压缩成一段文字摘要(格式为“第k步：推理：… 回应：…”)附加在系统提示前。这个设计的关键在于训练时的数据格式与推理时的数据格式完全一致——AI在训练时看到的结构，在实际使用时就是同样的结构，不存在“训练和考试用不同题型”的问题。

六、一条轨迹变成多份练习题：步前缀展开

最朴素的做法，是每条完整轨迹只生成一条训练样本，用最后一步的结果来代表整条轨迹。这种办法浪费了绝大多数步骤蕴含的信息。

ProCUA-SFT采用了一种叫“步前缀展开”的方法来解决这个问题。具体来说，如果一条轨迹总共有T步，就把它展开成T条独立的训练样本。第t条样本的输入包含：总目标、前t-1步的截图历史(最近三步保留完整图像，更早的以文字摘要呈现)以及第t步之前的所有操作记录；输出则是第t步的推理思考和具体操作。这样一来，从第一步到最后一步，每一步都成为一道独立的练习题。

这种处理方式有一个直觉上容易理解的好处：越早的步骤包含越多关于“如何开始任务”的信息，而这恰恰是AI最难学的地方——在什么都还没做的情况下，从一片空白开始规划行动路线。把每一步都变成训练样本，等于让AI在各种不同进度的中间状态下都练习过“下一步该怎么做”，而不仅仅是起步那一刻。

整个数据最终以LLaMA-Factory的ShareGPT格式输出，截图通过占位符嵌入对话流，训练目标是AI的推理和行动部分，同时过滤掉截图文件缺失的样本，最后对所有样本进行打乱和分片处理。

七、如何在大规模计算集群上同时跑数千台虚拟电脑

收集310万条步骤样本，意味着要让数千个虚拟Linux桌面同时运行，这本身就是一个工程挑战。

研究团队在基础架构层面做了两个关键决策。第一，推理计算和环境执行彻底分离。Kimi-K2.5模型被部署成无状态的、兼容OpenAI接口的vLLM服务端，每个数据采集进程各自拥有自己的虚拟机，通过HTTP向模型服务端发请求。由于模型无状态、虚拟机环境才是运行慢的那一边，两者可以独立横向扩展。在同一批Slurm计算节点上，GPU跑模型推理，CPU跑虚拟机，高清截图数据走节点内部总线传输，避免了跨节点的带宽开销。

第二，虚拟机后端采用可插拔设计，支持两种完全互换的模式。一种是Singularity本地模式，将OSWorld的QEMU/KVM虚拟化栈打包成一个Singularity(Apptainer)格式的容器镜像，无需root权限、无需Docker守护进程，可以直接部署在标准HPC集群上。如果主机硬件支持/dev/kvm就用硬件加速，不支持则自动退回软件模拟，以速度换兼容性。另一种是NVCF无服务器模式，当本地KVM资源不可用或已用满时，相同的采集代码可以转而驱动NVIDIA云函数(NVCF)，NVCF自动完成容器的部署、扩缩和回收。为了避免在注定失败的部署上浪费付费GPU时间，系统会在提交NVCF部署请求前先把所有需要的初始化文件下载到本地缓存，确认全部成功后才正式发起部署。

在任务调度层面，每个采集进程内部用异步线程池将“初始化虚拟机”和“采集轨迹”两个阶段流水线化，让慢速的系统启动不会阻塞正在进行的轨迹采集。顺序启动虚拟机的策略避免了大量虚拟机同时启动对QEMU/KVM堆栈的冲击。每一步轨迹数据都实时写入磁盘，确保节点级别的故障最多只损失一条正在进行的轨迹。

八、实验结果：成绩单说话

训练设置方面，研究团队使用UI-TARS 1.5 7B作为基础模型，在ProCUA-SFT和AgentNet上各训练一个完整的epoch，最大序列长度32k，批大小512，学习率2e-5，余弦学习率调度，权重衰减0.1。

测试基准是OSWorld——目前最具权威性的桌面CUA测试集，包含369个在真实Linux/Windows/macOS虚拟机中运行的任务，考生(AI模型)拥有完全的键盘和鼠标控制权。

训练过程中，使用ProCUA-SFT训练的模型(蓝线)从初始的约11.7%起步，在大约4800个训练步骤内稳步攀升至45%的峰值，全程呈现清晰的上升趋势。使用AgentNet训练的模型(红线)则在约750步(一个epoch)内就陷入平台期，停滞在8%到10%之间，不仅远低于未经额外训练的基础模型(26.3%的虚线)，更与ProCUA版本的成绩相差35个百分点。

为什么ProCUA-SFT效果这么好，而AgentNet这么差？研究团队通过分析两个数据集的统计特性，找到了三条清晰的解释线索。

ProCUA的轨迹长度明显更长，平均约29.7步，而AgentNet只有18.6步，且ProCUA的长尾分布更重，说明它包含了更多需要多步规划的复杂任务。在应用分布上，近一半的ProCUA轨迹针对的是LibreOffice系列软件(Impress占24%、Calc占17%、Writer占6%)，另有20%涉及多应用协作——而这两类恰好是OSWorld测试中的高权重类别。AgentNet则大量集中在单应用任务上，且Windows和Mac系统的轨迹(共约1.8万条)根本没有记录应用标签，难以精确比较。在操作类型分布上，AgentNet的操作中约63%是鼠标点击，而ProCUA只有约41%是点击，更多的操作被分配到键盘快捷键和文字输入上——后者天然比依赖像素精度的点击更稳定、更可靠。

九、多样性实验：覆盖哪些应用比什么都重要

研究团队还做了一组专门的消融实验，探究“在训练数据中引入什么样的多样性最有价值”。他们固定了约700个训练步骤的预算，从一个包含11.18万条轨迹的大池子中，按四种不同策略各抽取一批训练样本进行比较：不做任何多样性控制(随机采样)、按操作类型做轮转采样、按应用组合做轮转采样、以及同时按应用组合和操作类型做双层嵌套轮转采样。

结果非常明确。按应用组合轮转采样的得分是30.9%，是四种策略中唯一超过基础模型(26.3%)的策略，比随机采样的27.3%高出3.6个百分点。而按操作类型采样只拿到24.9%，双层嵌套策略得分25.5%，两者都不如随机采样。这个结论直接表明：在CUA数据集的维度上，应用组合的多样性才是最关键的轴，刻意平衡不同操作类型反而会适得其反。

十、轨迹结构分析：像地图一样看清AI的操作路径

研究团队还对数据集中的轨迹进行了深层次结构分析，把每条轨迹抽象成一张有向图：节点代表应用界面或屏幕状态，边代表触发状态转移的操作。从这张图中提取了八个刻画轨迹复杂度的指标，包括屏幕节点数、转移边数、循环次数(反映回退和重试行为)、总操作步数、涉及的应用数量、应用切换次数、线性度分数(1.0表示完全线性的操作序列)和屏幕重访率。

基于对约3.4854万条轨迹(覆盖61种应用组合)的分析，典型轨迹的中位数特征是：经过5个屏幕状态、5次状态转移、执行19个操作。线性度中位数为0.86，表明大多数轨迹相当线性，其中42.3%完全线性(线性度=1.0)，仅2.2%呈现高度非线性(线性度<0.5)。约35.8%的轨迹不含任何循环，56.7%含1到5个循环，7.5%含超过5个循环。73.9%的轨迹是单应用操作，18.5%涉及两个应用，6.6%涉及三个，0.9%涉及四个及以上。

六个具体的典型案例展示了这一谱系的两端。GIMP图像编辑任务是最简洁的一类：涉及7个屏幕、35个操作、线性度完美的1.0、零循环——AI从头到尾顺序完成每个子步骤，没有回头路。另一个极端是多PDF数据提取任务，需要反复在文件管理器、文档查看器和电子表格之间穿梭，产生了10个循环、13次回退、线性度仅0.33、共9次应用切换，状态转移效率(每步访问的唯一屏幕数比例)低至0.17。研究团队发现，轨迹的复杂程度并非简单由涉及的应用数量决定——有些四应用任务可以保持高度线性(如通过终端指令完成文件转换)，而另一些同样涉及四个应用的任务则可能产生极度密集的交叉循环图(如需要反复核对多个PDF后汇总到一张表格)。决定复杂度的关键，是应用之间的协作模式，而非应用的数量本身。

十一、复杂度感知数据增强：向稀有任务学习

基于上述分析，研究团队发现训练集中的应用组合分布严重长尾化：单应用任务(尤其是LO Impress、LO Calc和Chrome)占了大量份额，而复杂的多应用协作任务极为罕见。为了应对这个问题，他们设计了一个两阶段的增强方法。

首先，在11.18万条轨迹池中，找出应用组合出现次数不超过3次的轨迹，共识别出2065条“稀有轨迹”。然后，把这些稀有轨迹的任务目标和轨迹摘要作为少样本示例，喂给任务合成流水线，引导它专门生成针对这类罕见多应用协作模式的新任务。按这种方法收集到的353条新轨迹，构成了“ProCUA + 稀有应用合成”子集。

与原始训练集相比，这个子集在几乎所有复杂度指标上都有明显提升：每条轨迹平均涉及的应用数从2.0增加到3.3，应用切换次数从2.0增加到4.8，访问的屏幕数从6.4增加到8.6，总操作步数从26.6增加到35.2。与此同时，线性度只是轻微下降(从0.84到0.80)，循环数几乎持平(2.8 vs 2.6)，说明复杂度的提升主要体现在应用跨度扩大，而非盲目的兜圈子。在应用组合分布上，原本几乎不存在的Chrome+LibreOffice Calc、文件管理器+LibreOffice Writer、桌面+VS Code等组合，在新子集中的占比分别达到0.6%到2.0%，已经从边缘类别升级为有代表性的组合。

说到底，ProCUA-SFT讲的是一个关于“质量比数量重要”的故事。2.25万条真人精心录制的示范，败给了9.3万条AI自产自销的合成轨迹。胜负的关键不在于谁更费力，而在于谁更聪明地解决了三个核心问题：如何保证每道练习题都真实可解，如何确保练习题足够难且足够多样，以及如何让“出题者”和“解题者”的认知边界保持一致。

这项研究对未来的意义不限于“让AI更好地帮我们点击鼠标”。更深远的影响在于：它证明了一条可以持续扩展的合成数据生产路径——随着VLM的能力不断提升，直接用更强的新模型替换Kimi-K2.5，整个流水线的数据质量就会水涨船高，无需再依赖昂贵的人工标注。研究团队也明确表示，计划在更强的开源模型、更多操作系统平台和外部奖励模型可用时，持续迭代ProCUA-SFT。

不禁让人思考：如果AI的学习速度继续以这种方式加速，我们距离一个“只需要说出你想做什么、AI就能自主帮你完成任何电脑操作”的时代，到底还有多远？

想深入了解ProCUA-SFT的所有技术细节，可以通过arXiv编号2606.17321v1检索完整论文，数据集本身也已在Hugging Face平台以ProCUA-SFT为名公开发布。

Q&A

Q1：ProCUA-SFT是什么，它和普通训练数据有什么不同？

A：ProCUA-SFT是NVIDIA与华盛顿大学共同构建的电脑操控智能体训练数据集，包含310万条操作步骤样本。与普通人工标注数据不同，它完全由AI自动生成，且在生成每个任务前会通过“二值条件核查”机制确认任务在当前桌面环境下确实可以完成，避免了合成任务“无中生有”的问题。此外，数据来源包含真实复杂的电子表格和演示文稿文件，训练出的AI能处理更接近真实工作场景的复杂任务。

Q2：AgentNet的人工标注数据为何让模型越学越差？

A：AgentNet的22.5K条人工示范在用于继续训练时导致模型成功率从26.3%跌至8-10%，主要因为三点：任务类型过于单一，几乎全是单应用的简单操作，平均步数只有17步；缺乏跨应用协作任务，而OSWorld测试恰好偏重考查这类能力；众包收集的标注质量参差不齐，噪声干扰了模型原有的推理能力。新学的内容不仅没有强化旧能力，反而覆盖和破坏了它，这在机器学习中被称为“负迁移”。

Q3：ProCUA-SFT数据集是否可以公开获取？

A：可以。ProCUA-SFT数据集已在Hugging Face平台以“ProCUA-SFT”为名公开发布，任何人均可下载使用。需要注意的是，数据集中引用的SpreadsheetBench电子表格文件本身未被重新分发，仅用于构建桌面初始状态；Zenodo10K演示文稿则采用CC-BY 4.0协议，可自由使用。