UBC AI新发现：电脑助手不截屏记忆，学会偷懒更聪明

2026-06-19阅读 0热度 0

哥伦比亚

不列颠哥伦比亚大学与微软研究院联合开展的一项研究，于2026年6月以编号arXiv:2605.11212v3发表在arXiv预印本平台。读者可直接通过该编号获取全文。

假设你雇了一个助手操控你的电脑，他每隔一秒就会抓拍整个屏幕画面，并把每张快照全数交给你。你会迅速发现，绝大多数连续快照几乎毫无差异——唯一区别可能是屏幕右上角弹出了一个新通知，其余全是重复内容。这种做法不仅大量浪费存储空间和你的注意力，更关键的是：助手本人也会因信息过度重复而淹没在“无效噪音”中，渐渐遗忘真正重要的操作节点。

这恰好指出现有“计算机使用智能体”（即能自动执行网页浏览、桌面操作等任务的AI助手）所面临的核心瓶颈。研究团队将这一现象称为“视觉冗余”——AI助手每执行一个步骤，都会重新“阅读”一整套屏幕截图，而其中大部分像素并未发生任何变化。随着任务链条拉长，这些重复信息越积越多，最终把真正有价值的内容彻底掩盖。

为打破这一困局，研究团队设计了一套名为REVISION的方案。其名称本身就暗示了核心逻辑：剔除多余、重复的视觉信息，仅保留真正发生了变化、具有实际意义的部分。

一、屏幕截图的“信息通货膨胀”问题

在深入理解REVISION之前，先厘清AI助手究竟如何“读取”屏幕。

当前的多模态大语言模型（能够同时处理图像和文本的AI）在解析一张屏幕截图时，会将整幅图像分割为众多小方块，每个小方块称为一个“图像块”（patch）。以常见桌面分辨率为例，一张截图大约可被切分为两千七百多个图像块。每个图像块都会被转化为一串数字信号，输入给AI的“大脑”进行处理。这些数字信号就是所谓的“视觉Token”——可视为AI理解图像内容所消耗的“思维资源单位”。

一般情况下，一张截图约消耗两千多个视觉Token。若AI助手需完成一个包含二十个步骤的任务，每步都查看最近五张历史截图，那么仅图像部分就要消耗超过十五万个Token。这好比让助手做笔记——他不只记录每次变更，还把整面墙的壁纸原封不动地抄写二十遍。

研究团队系统分析了八个不同的计算机操作基准数据集，结果令人震惊：平均有45.4%的图像块在相邻两步之间完全没有变化。在某些桌面任务场景下，这一比例甚至高达56.2%。换言之，超过半数的“视觉Token”属于纯粹重复内容，对AI决策毫无贡献，却挤占了宝贵的处理资源。

更糟糕的是，随着AI可用的“上下文窗口”（即工作记忆容量）被这些重复信息填满，它能有效回顾的历史步骤数量反而越来越少。这导致一个反直觉的现象：给予AI更多历史截图，它的表现并不会提升，反而可能因“记忆过载”而退化。这与语言类任务截然不同——在文字对话场景中，更多历史记录通常能改善AI的响应质量；但在电脑操作任务中，额外历史截图带来的往往是性能饱和甚至衰退。

二、REVISION如何“精简”AI的视觉记忆

核心思路其实很直观：既然屏幕上的大部分内容保持不变，就不必让AI重新审视那些未变的部分——只需告诉它“上一步中的未变区域仍然相同，你只需关注新变化的部分”。

具体如何实现？研究团队设计了一个名为“ReVision Token Selection”（RTS）的轻量级筛选模块。该模块本质上是三层神经网络分类器——可以看作一个经过训练的“差异检测员”。

该差异检测员的工作流程如下：对于轨迹中的每一步，它会提取当前截图与上一步截图对应位置的图像块，两两比较它们的特征表示，然后判断该位置的内容是否发生了实质性变化。若未变化，则将当前截图的这个图像块标记为“冗余”并丢弃；若有变化，则保留。

训练这个差异检测员的方法也颇具巧思。团队使用了OmniParserV2工具，它可将屏幕截图分解为有语义意义的区域（例如一个按钮、一个文本框、一个菜单），然后对比相邻两步中同一区域的内容是否发生了变化。这种方法比直接比较像素或简单图像相似度更聪明——它能区分出真正的内容变化（如一段文字被修改）和细微的视觉噪声（如鼠标光标移动）。训练完成后，该差异检测员在推理时仅需约22毫秒即可完成一次筛选，几乎不产生额外时间成本。

有一个重要的设计决策值得特别提及：在每个历史窗口中，第一张截图会被完整保留，不做任何删减。只有从第二张开始的截图才会被筛选，去掉与前一帧相比没有变化的图像块。这样做的逻辑在于：第一张截图提供了“基线”——AI需要知道任务启动时的屏幕状态，才能正确理解后续变化的意义。

此外，被保留下来的图像块会保持它们原有的位置编号（position ID）。这一点非常关键，因为AI的视觉理解依赖于知道每个图像块在屏幕上的位置——删掉部分图像块后，如果剩余图像块重新连续编号，AI就会误以为它们是相邻的，从而破坏对屏幕空间布局的认知。保留原始位置编号，就像在一本书中删掉了一些页面，但仍保留原页码——读者依然知道第87页在整个书中的位置，不会因中间空缺而迷失方向。

三、不只是“裁剪”，还要“训练”AI适应不完整的画面

单纯将重复图像块删掉，然后把“残缺”的截图直接送入AI，并不会自动产生好结果。现有AI模型都是在完整截图上训练出来的，突然接收一张“东缺一块、西少一块”的截图，模型往往会感到困惑，表现反而下降。

这便是REVISION的第二个关键设计：不仅在推理时删除冗余图像块，还要在训练阶段就让模型学会在“残缺”的视觉输入下工作。

具体做法是：研究团队利用名为AgentNet的计算机操作轨迹数据集，将每条操作记录都用RTS处理一遍，生成带有图像块删减的“压缩版”训练样本，然后用这些样本对QWEN2.5-VL-7B（一个强大的多模态语言模型）进行微调训练。

经过这种训练，模型学会了一种新的“阅读习惯”：当它看到一张删去了大量图像块的截图时，它知道那些空白区域代表“和上一步一样，没有变化”，并且会主动借鉴之前步骤的完整截图来“脑补”缺失的内容。这好比一个人大量阅读删节版书籍后，掌握了从上下文推断删减内容的能力，反而阅读效率更高，理解也更深入。

训练时，模型在每一步仅查看最近k张历史截图（k为可调参数，例如3、5、7张），但同时能访问所有历史步骤的文字记录（每步的思考过程和执行操作）。也就是说，文字层面的历史是完整的，而视觉层面的历史经过压缩后变得更高效。研究团队针对不同的k值分别训练了独立的模型，以确保训练与测试条件完全一致。

四、实验结果：砍掉近一半的“视觉开销”，表现反而更好

研究团队在三个不同的基准测试上评估了REVISION的效果，分别覆盖桌面操作与网页操作两类场景。

第一个是OSWorld，这是一个在真实桌面环境中测试AI助手的经典基准，涵盖文件管理、浏览器操作、办公软件等任务，任务完成允许的最大步骤数可为15步、50步或100步。第二个是WebTailBench，专注于复杂多步骤网页操作任务，其中的任务大多是目前AI助手不太擅长的“长尾”场景。第三个是AgentNetBench，一个离线评测基准，使用固定操作轨迹进行评估，可排除实际运行环境差异的干扰，结果更稳定、可重复。

在使用5张历史截图的条件下，搭配QWEN2.5-VL-7B基础模型，REVISION与“不删除任何图像块”的基线相比，平均减少了46%的视觉Token消耗，同时任务成功率提升了3个百分点。

在WebTailBench上，这一差距尤为显著。其他强力竞品（如OpenCUA、UI-TARS等专门针对计算机操作任务训练的模型）在100步任务上的成功率约为30%以下，而REVISION达到了近50%的成功率，相当于42%的相对提升幅度。

在效率与性能的综合对比中，可以看到一个鲜明的对照：其他模型随着历史截图数量从3张增加到5张，Token消耗大幅上升，但成功率几乎没有提升；而REVISION用更少的Token获得了更高的成功率，并且随着历史截图数量继续增加（从3张到5张到7张再到9张），其表现持续稳步提升，并未像其他模型那样迅速进入“饱和”状态。

在轨迹长度（即完成任务所需的平均步骤数）方面，REVISION同样展现优势。在WebTailBench上，其他强力模型平均需要33到37步才能完成任务，且成功率低于40%；而REVISION仅需约25到30步就能达到接近50%的成功率。更少的步骤加上更高的成功率，说明它不仅任务完成质量更高，决策过程也更高效，不会走弯路。

五、饱和点在哪里？历史越长越好，但有个临界值

研究团队还系统分析了“历史截图数量”与“任务表现”之间的关系，以及性能何时开始饱和。

在不删除任何图像块的情况下，模型在历史截图数量增加到约7张时达到性能峰值，之后随着截图继续增加，性能开始下降。而使用REVISION删减冗余图像块后，性能峰值延迟到了约11张截图，峰值高度也更高。

更有趣的发现是：性能饱和与“截图数量”的相关性，实际上不如与“总Token数量”的相关性高。两种方案的性能饱和点，都大致发生在总Token数达到23000个左右。这说明制约AI助手表现的关键并非它能看多少张截图，而是它能处理多少有效信息。REVISION通过压缩每张截图的Token消耗，让模型在相同的Token预算内能容纳更多有意义的历史，从而推迟了饱和。

研究团队还比较了两种不同的删减方向：一种是“向前删减”（保留最早的截图完整，对后续截图删减）；另一种是“向后删减”（保留最新的截图完整，对历史截图删减）。结果表明，向前删减在绝大多数情况下表现更好。原因在于：如果最新截图也被删减，AI看到的当前状态就是不完整的，影响它对“现在”的判断；而向前删减保留了最新状态的完整视图，历史截图的冗余内容被压缩，AI就能更好地聚焦于“发生了什么变化”。

六、与其他压缩方案的对比：不是随便删就好的

为了证明RTS的设计合理性，研究团队将其与多种其他图像块删减策略进行了对比。

随机删除50%的图像块，成功率下降了约5个百分点；随机删除90%，成功率几乎崩溃，降到了危险的低水平。这说明“删”本身不会带来好处，关键是“删什么”。

按照螺旋形状的空间模式删除（一种均匀分布的删减策略），效果比随机稍好，但仍显著低于不删减的基线。基于像素相似度的删除（直接比较两张截图对应位置的像素是否相同）能删掉更多Token，但受光标移动、渲染噪声等因素干扰，误删了不少重要内容，最终成功率低于基线。

使用大型视觉模型的特征相似度（余弦相似度）判断图像块是否冗余，效果优于像素方法，但仍未能超越不删除的基线。换用RTS（一个学会了自适应决策边界的分类器），才真正超越基线，同时减少了约48%的视觉Token消耗。

如果用OmniParser做区域级别的语义分割再进行删减，成功率还可进一步提升（AgentNetBench上达到74.6%，OSWorld SR@100达到35.2%），但代价是推理延迟从22毫秒飙升到超过550毫秒——大约是RTS的25倍。对于需要实时交互的场景，这个代价太高。RTS的设计恰好在效果与速度之间找到了平衡点。

七、REVISION会不会让AI“忘记”怎么看单张截图？

一个合理的担忧是：用大量“残缺”截图训练出来的模型，会不会在处理正常完整截图时反而变差？研究团队专门设计了验证实验。

他们在三个专门测试“界面元素定位”能力的基准上（OSWorld-G、ScreenSpot-Pro和UI-Vision），分别对REVISION训练的模型和原始基础模型进行评估。这三个基准均为单张截图测试，不涉及历史信息，因此REVISION的图像块删减机制在这里完全不起作用——模型接收的是完整截图。

结果显示，REVISION训练的模型与原始模型的表现几乎没有差异，分差在统计误差范围内。这说明REVISION的训练过程并未损害模型理解完整截图的能力，它只是额外学会了在“残缺”输入下工作，而非“遗忘”了原有能力。

类似地，在使用不同规模基础模型（QWEN3-VL-8B，一个比QWEN2.5-VL-7B更强的模型）进行测试时，REVISION同样带来了一致的性能提升。使用3张历史截图时，QWEN3-VL-8B搭配REVISION在OSWorld SR@100达到34.1%，AgentNetBench平均成功率达到73.5%；扩展到5张历史截图后，两个数字分别提升到36.7%和76.0%。这说明REVISION的优势不依赖于特定的模型结构，具有较好的通用性。

八、稳定性与可靠性：不是“碰运气”

对于一项实验性研究，评估结果的稳定性至关重要。研究团队对每个模型都运行了三次独立实验，并报告了标准差。

所有模型在OSWorld、WebTailBench和AgentNetBench上的标准差均在0.6到1.2个百分点之间，属于极低水平。即便是使用较长历史（H=7或H=9张截图）的REVISION模型，方差也保持在相同低水平。这意味着观察到的性能提升是系统性的，而非个别运行中的偶然结果。

另一个值得一提的实验是“跨窗口泛化”测试：用3张历史截图条件训练出来的模型，在测试时如果使用5张历史截图（不匹配的条件），表现会有多大下降？实验结果显示，这种错配带来的性能损失非常有限（在OSWorld SR@100上从30.5%降至29.1%，在AgentNetBench平均成功率上从70.7%降至69.7%），说明REVISION训练的模型具有一定的窗口大小鲁棒性，不会因测试时截图数量稍有变化就表现失常。

这条研究揭示的核心洞察其实很简单：对AI助手而言，给它看更多截图，不如给它看更有用的截图。当大量重复内容占据了AI有限的“工作记忆”，它能调动的真正有效信息反而变少了——就像一个人书桌上堆满重复的废纸，反而找不到那份真正重要的文件。

REVISION所做的，就是在将截图交给AI之前，先派出一位眼神犀利的助理，把那些“和上次一模一样”的部分标记出来、暂时撤走，只把真正发生变化的内容呈现给AI。这位助理经过充分训练，能区分出哪些“一样”是真的内容未变、哪些“看起来差不多”实则有重要差异。

这对普通用户意味着什么？随着AI操作电脑的能力日益受到关注，“如何让AI在有限计算资源下完成更长、更复杂的任务”将成为决定这类产品能否真正实用化的关键瓶颈。REVISION提供的思路——通过训练让模型学会在压缩的视觉历史下高效推理——无需更换底层模型结构，也无需大幅增加硬件投入，是一条相对务实可行的路径。

当然，这套方法也有其局限。对于界面变化非常快速、密集的场景（比如每一步都有大量屏幕内容发生变化），可压缩的冗余空间本身就不大，收益会相应减少。而且，如果差异检测器出现误判，删掉了某个看似静止、实则关键的区域（比如一个微妙变化的状态图标），就可能让AI错过重要信息。如何进一步提高差异检测器的精准度，以及如何将类似思路扩展到视频理解、机器人感知等其他需要处理连续视觉序列的场景，都是这一方向未来值得探索的课题。

针对这项研究，几个常见问题的解答或许有助于理解：

Q1：REVISION是如何判断哪些截图内容是“重复”可以删除的？
A：REVISION使用了一个叫RTS的轻量级分类器，它会对相邻两步截图的对应图像块进行特征比较，判断内容是否发生了实质变化。训练时借助OmniParserV2对屏幕区域进行语义分割，让分类器学会区分真正的内容变化与光标移动等无关噪声。判断一次仅需约22毫秒，几乎不增加时间成本。

Q2：REVISION删除了图像块后，AI会不会看不懂残缺的截图？
A：不会。原因在于REVISION不仅在推理时删除冗余图像块，更重要的是用大量“残缺截图”对模型进行了专门训练。经过训练的模型学会了把残缺的地方理解为“和上一步一样”，并能从完整保留的历史截图中补充那部分信息。在单张完整截图测试中，REVISION训练的模型表现与原始模型几乎没有差异。

Q3：计算机使用AI助手（CUA）为什么历史截图越多表现反而不进反退？
A：因为每张截图包含大量与前一步几乎相同的内容，重复信息不断累积会占满AI的“工作记忆”容量，真正有用的信息反而被稀释。研究发现，决定性能是否饱和的关键是总Token数而非截图张数，当总Token超过约23000个时，不管添加多少截图性能都开始停滞或下降。删除冗余图像块后，同样的Token预算能容纳更多有效信息，饱和点因此被延迟。