UBC AI新发现:电脑助手不截屏记忆,学会偷懒更聪明

2026-06-19阅读 0热度 0
哥伦比亚

不列颠哥伦比亚大学与微软研究院联合开展的一项研究,于2026年6月以编号arXiv:2605.11212v3发表在arXiv预印本平台。读者可直接通过该编号获取全文。

不截屏也能

假设你雇了一个助手操控你的电脑,他每隔一秒就会抓拍整个屏幕画面,并把每张快照全数交给你。你会迅速发现,绝大多数连续快照几乎毫无差异——唯一区别可能是屏幕右上角弹出了一个新通知,其余全是重复内容。这种做法不仅大量浪费存储空间和你的注意力,更关键的是:助手本人也会因信息过度重复而淹没在“无效噪音”中,渐渐遗忘真正重要的操作节点。

这恰好指出现有“计算机使用智能体”(即能自动执行网页浏览、桌面操作等任务的AI助手)所面临的核心瓶颈。研究团队将这一现象称为“视觉冗余”——AI助手每执行一个步骤,都会重新“阅读”一整套屏幕截图,而其中大部分像素并未发生任何变化。随着任务链条拉长,这些重复信息越积越多,最终把真正有价值的内容彻底掩盖。

为打破这一困局,研究团队设计了一套名为REVISION的方案。其名称本身就暗示了核心逻辑:剔除多余、重复的视觉信息,仅保留真正发生了变化、具有实际意义的部分。

一、屏幕截图的“信息通货膨胀”问题

在深入理解REVISION之前,先厘清AI助手究竟如何“读取”屏幕。

当前的多模态大语言模型(能够同时处理图像和文本的AI)在解析一张屏幕截图时,会将整幅图像分割为众多小方块,每个小方块称为一个“图像块”(patch)。以常见桌面分辨率为例,一张截图大约可被切分为两千七百多个图像块。每个图像块都会被转化为一串数字信号,输入给AI的“大脑”进行处理。这些数字信号就是所谓的“视觉Token”——可视为AI理解图像内容所消耗的“思维资源单位”。

一般情况下,一张截图约消耗两千多个视觉Token。若AI助手需完成一个包含二十个步骤的任务,每步都查看最近五张历史截图,那么仅图像部分就要消耗超过十五万个Token。这好比让助手做笔记——他不只记录每次变更,还把整面墙的壁纸原封不动地抄写二十遍。

研究团队系统分析了八个不同的计算机操作基准数据集,结果令人震惊:平均有45.4%的图像块在相邻两步之间完全没有变化。在某些桌面任务场景下,这一比例甚至高达56.2%。换言之,超过半数的“视觉Token”属于纯粹重复内容,对AI决策毫无贡献,却挤占了宝贵的处理资源。

更糟糕的是,随着AI可用的“上下文窗口”(即工作记忆容量)被这些重复信息填满,它能有效回顾的历史步骤数量反而越来越少。这导致一个反直觉的现象:给予AI更多历史截图,它的表现并不会提升,反而可能因“记忆过载”而退化。这与语言类任务截然不同——在文字对话场景中,更多历史记录通常能改善AI的响应质量;但在电脑操作任务中,额外历史截图带来的往往是性能饱和甚至衰退。

二、REVISION如何“精简”AI的视觉记忆

核心思路其实很直观:既然屏幕上的大部分内容保持不变,就不必让AI重新审视那些未变的部分——只需告诉它“上一步中的未变区域仍然相同,你只需关注新变化的部分”。

具体如何实现?研究团队设计了一个名为“ReVision Token Selection”(RTS)的轻量级筛选模块。该模块本质上是三层神经网络分类器——可以看作一个经过训练的“差异检测员”。

该差异检测员的工作流程如下:对于轨迹中的每一步,它会提取当前截图与上一步截图对应位置的图像块,两两比较它们的特征表示,然后判断该位置的内容是否发生了实质性变化。若未变化,则将当前截图的这个图像块标记为“冗余”并丢弃;若有变化,则保留。

训练这个差异检测员的方法也颇具巧思。团队使用了OmniParserV2工具,它可将屏幕截图分解为有语义意义的区域(例如一个按钮、一个文本框、一个菜单),然后对比相邻两步中同一区域的内容是否发生了变化。这种方法比直接比较像素或简单图像相似度更聪明——它能区分出真正的内容变化(如一段文字被修改)和细微的视觉噪声(如鼠标光标移动)。训练完成后,该差异检测员在推理时仅需约22毫秒即可完成一次筛选,几乎不产生额外时间成本。

有一个重要的设计决策值得特别提及:在每个历史窗口中,第一张截图会被完整保留,不做任何删减。只有从第二张开始的截图才会被筛选,去掉与前一帧相比没有变化的图像块。这样做的逻辑在于:第一张截图提供了“基线”——AI需要知道任务启动时的屏幕状态,才能正确理解后续变化的意义。

此外,被保留下来的图像块会保持它们原有的位置编号(position ID)。这一点非常关键,因为AI的视觉理解依赖于知道每个图像块在屏幕上的位置——删掉部分图像块后,如果剩余图像块重新连续编号,AI就会误以为它们是相邻的,从而破坏对屏幕空间布局的认知。保留原始位置编号,就像在一本书中删掉了一些页面,但仍保留原页码——读者依然知道第87页在整个书中的位置,不会因中间空缺而迷失方向。

三、不只是“裁剪”,还要“训练”AI适应不完整的画面

单纯将重复图像块删掉,然后把“残缺”的截图直接送入AI,并不会自动产生好结果。现有AI模型都是在完整截图上训练出来的,突然接收一张“东缺一块、西少一块”的截图,模型往往会感到困惑,表现反而下降。

这便是REVISION的第二个关键设计:不仅在推理时删除冗余图像块,还要在训练阶段就让模型学会在“残缺”的视觉输入下工作。

具体做法是:研究团队利用名为AgentNet的计算机操作轨迹数据集,将每条操作记录都用RTS处理一遍,生成带有图像块删减的“压缩版”训练样本,然后用这些样本对QWEN2.5-VL-7B(一个强大的多模态语言模型)进行微调训练。

经过这种训练,模型学会了一种新的“阅读习惯”:当它看到一张删去了大量图像块的截图时,它知道那些空白区域代表“和上一步一样,没有变化”,并且会主动借鉴之前步骤的完整截图来“脑补”缺失的内容。这好比一个人大量阅读删节版书籍后,掌握了从上下文推断删减内容的能力,反而阅读效率更高,理解也更深入。

训练时,模型在每一步仅查看最近k张历史截图(k为可调参数,例如3、5、7张),但同时能访问所有历史步骤的文字记录(每步的思考过程和执行操作)。也就是说,文字层面的历史是完整的,而视觉层面的历史经过压缩后变得更高效。研究团队针对不同的k值分别训练了独立的模型,以确保训练与测试条件完全一致。

四、实验结果:砍掉近一半的“视觉开销”,表现反而更好

研究团队在三个不同的基准测试上评估了REVISION的效果,分别覆盖桌面操作与网页操作两类场景。

第一个是OSWorld,这是一个在真实桌面环境中测试AI助手的经典基准,涵盖文件管理、浏览器操作、办公软件等任务,任务完成允许的最大步骤数可为15步、50步或100步。第二个是WebTailBench,专注于复杂多步骤网页操作任务,其中的任务大多是目前AI助手不太擅长的“长尾”场景。第三个是AgentNetBench,一个离线评测基准,使用固定操作轨迹进行评估,可排除实际运行环境差异的干扰,结果更稳定、可重复。

在使用5张历史截图的条件下,搭配QWEN2.5-VL-7B基础模型,REVISION与“不删除任何图像块”的基线相比,平均减少了46%的视觉Token消耗,同时任务成功率提升了3个百分点。

在WebTailBench上,这一差距尤为显著。其他强力竞品(如OpenCUA、UI-TARS等专门针对计算机操作任务训练的模型)在100步任务上的成功率约为30%以下,而REVISION达到了近50%的成功率,相当于42%的相对提升幅度。

在效率与性能的综合对比中,可以看到一个鲜明的对照:其他模型随着历史截图数量从3张增加到5张,Token消耗大幅上升,但成功率几乎没有提升;而REVISION用更少的Token获得了更高的成功率,并且随着历史截图数量继续增加(从3张到5张到7张再到9张),其表现持续稳步提升,并未像其他模型那样迅速进入“饱和”状态。

在轨迹长度(即完成任务所需的平均步骤数)方面,REVISION同样展现优势。在WebTailBench上,其他强力模型平均需要33到37步才能完成任务,且成功率低于40%;而REVISION仅需约25到30步就能达到接近50%的成功率。更少的步骤加上更高的成功率,说明它不仅任务完成质量更高,决策过程也更高效,不会走弯路。

五、饱和点在哪里?历史越长越好,但有个临界值

研究团队还系统分析了“历史截图数量”与“任务表现”之间的关系,以及性能何时开始饱和。

在不删除任何图像块的情况下,模型在历史截图数量增加到约7张时达到性能峰值,之后随着截图继续增加,性能开始下降。而使用REVISION删减冗余图像块后,性能峰值延迟到了约11张截图,峰值高度也更高。

更有趣的发现是:性能饱和与“截图数量”的相关性,实际上不如与“总Token数量”的相关性高。两种方案的性能饱和点,都大致发生在总Token数达到23000个左右。这说明制约AI助手表现的关键并非它能看多少张截图,而是它能处理多少有效信息。REVISION通过压缩每张截图的Token消耗,让模型在相同的Token预算内能容纳更多有意义的历史,从而推迟了饱和。

研究团队还比较了两种不同的删减方向:一种是“向前删减”(保留最早的截图完整,对后续截图删减);另一种是“向后删减”(保留最新的截图完整,对历史截图删减)。结果表明,向前删减在绝大多数情况下表现更好。原因在于:如果最新截图也被删减,AI看到的当前状态就是不完整的,影响它对“现在”的判断;而向前删减保留了最新状态的完整视图,历史截图的冗余内容被压缩,AI就能更好地聚焦于“发生了什么变化”。

六、与其他压缩方案的对比:不是随便删就好的

为了证明RTS的设计合理性,研究团队将其与多种其他图像块删减策略进行了对比。

随机删除50%的图像块,成功率下降了约5个百分点;随机删除90%,成功率几乎崩溃,降到了危险的低水平。这说明“删”本身不会带来好处,关键是“删什么”。

按照螺旋形状的空间模式删除(一种均匀分布的删减策略),效果比随机稍好,但仍显著低于不删减的基线。基于像素相似度的删除(直接比较两张截图对应位置的像素是否相同)能删掉更多Token,但受光标移动、渲染噪声等因素干扰,误删了不少重要内容,最终成功率低于基线。

使用大型视觉模型的特征相似度(余弦相似度)判断图像块是否冗余,效果优于像素方法,但仍未能超越不删除的基线。换用RTS(一个学会了自适应决策边界的分类器),才真正超越基线,同时减少了约48%的视觉Token消耗。

如果用OmniParser做区域级别的语义分割再进行删减,成功率还可进一步提升(AgentNetBench上达到74.6%,OSWorld SR@100达到35.2%),但代价是推理延迟从22毫秒飙升到超过550毫秒——大约是RTS的25倍。对于需要实时交互的场景,这个代价太高。RTS的设计恰好在效果与速度之间找到了平衡点。

七、REVISION会不会让AI“忘记”怎么看单张截图?

一个合理的担忧是:用大量“残缺”截图训练出来的模型,会不会在处理正常完整截图时反而变差?研究团队专门设计了验证实验。

他们在三个专门测试“界面元素定位”能力的基准上(OSWorld-G、ScreenSpot-Pro和UI-Vision),分别对REVISION训练的模型和原始基础模型进行评估。这三个基准均为单张截图测试,不涉及历史信息,因此REVISION的图像块删减机制在这里完全不起作用——模型接收的是完整截图。

结果显示,REVISION训练的模型与原始模型的表现几乎没有差异,分差在统计误差范围内。这说明REVISION的训练过程并未损害模型理解完整截图的能力,它只是额外学会了在“残缺”输入下工作,而非“遗忘”了原有能力。

类似地,在使用不同规模基础模型(QWEN3-VL-8B,一个比QWEN2.5-VL-7B更强的模型)进行测试时,REVISION同样带来了一致的性能提升。使用3张历史截图时,QWEN3-VL-8B搭配REVISION在OSWorld SR@100达到34.1%,AgentNetBench平均成功率达到73.5%;扩展到5张历史截图后,两个数字分别提升到36.7%和76.0%。这说明REVISION的优势不依赖于特定的模型结构,具有较好的通用性。

八、稳定性与可靠性:不是“碰运气”

对于一项实验性研究,评估结果的稳定性至关重要。研究团队对每个模型都运行了三次独立实验,并报告了标准差。

所有模型在OSWorld、WebTailBench和AgentNetBench上的标准差均在0.6到1.2个百分点之间,属于极低水平。即便是使用较长历史(H=7或H=9张截图)的REVISION模型,方差也保持在相同低水平。这意味着观察到的性能提升是系统性的,而非个别运行中的偶然结果。

另一个值得一提的实验是“跨窗口泛化”测试:用3张历史截图条件训练出来的模型,在测试时如果使用5张历史截图(不匹配的条件),表现会有多大下降?实验结果显示,这种错配带来的性能损失非常有限(在OSWorld SR@100上从30.5%降至29.1%,在AgentNetBench平均成功率上从70.7%降至69.7%),说明REVISION训练的模型具有一定的窗口大小鲁棒性,不会因测试时截图数量稍有变化就表现失常。

这条研究揭示的核心洞察其实很简单:对AI助手而言,给它看更多截图,不如给它看更有用的截图。当大量重复内容占据了AI有限的“工作记忆”,它能调动的真正有效信息反而变少了——就像一个人书桌上堆满重复的废纸,反而找不到那份真正重要的文件。

REVISION所做的,就是在将截图交给AI之前,先派出一位眼神犀利的助理,把那些“和上次一模一样”的部分标记出来、暂时撤走,只把真正发生变化的内容呈现给AI。这位助理经过充分训练,能区分出哪些“一样”是真的内容未变、哪些“看起来差不多”实则有重要差异。

这对普通用户意味着什么?随着AI操作电脑的能力日益受到关注,“如何让AI在有限计算资源下完成更长、更复杂的任务”将成为决定这类产品能否真正实用化的关键瓶颈。REVISION提供的思路——通过训练让模型学会在压缩的视觉历史下高效推理——无需更换底层模型结构,也无需大幅增加硬件投入,是一条相对务实可行的路径。

当然,这套方法也有其局限。对于界面变化非常快速、密集的场景(比如每一步都有大量屏幕内容发生变化),可压缩的冗余空间本身就不大,收益会相应减少。而且,如果差异检测器出现误判,删掉了某个看似静止、实则关键的区域(比如一个微妙变化的状态图标),就可能让AI错过重要信息。如何进一步提高差异检测器的精准度,以及如何将类似思路扩展到视频理解、机器人感知等其他需要处理连续视觉序列的场景,都是这一方向未来值得探索的课题。

针对这项研究,几个常见问题的解答或许有助于理解:

Q1:REVISION是如何判断哪些截图内容是“重复”可以删除的?
A:REVISION使用了一个叫RTS的轻量级分类器,它会对相邻两步截图的对应图像块进行特征比较,判断内容是否发生了实质变化。训练时借助OmniParserV2对屏幕区域进行语义分割,让分类器学会区分真正的内容变化与光标移动等无关噪声。判断一次仅需约22毫秒,几乎不增加时间成本。

Q2:REVISION删除了图像块后,AI会不会看不懂残缺的截图?
A:不会。原因在于REVISION不仅在推理时删除冗余图像块,更重要的是用大量“残缺截图”对模型进行了专门训练。经过训练的模型学会了把残缺的地方理解为“和上一步一样”,并能从完整保留的历史截图中补充那部分信息。在单张完整截图测试中,REVISION训练的模型表现与原始模型几乎没有差异。

Q3:计算机使用AI助手(CUA)为什么历史截图越多表现反而不进反退?
A:因为每张截图包含大量与前一步几乎相同的内容,重复信息不断累积会占满AI的“工作记忆”容量,真正有用的信息反而被稀释。研究发现,决定性能是否饱和的关键是总Token数而非截图张数,当总Token超过约23000个时,不管添加多少截图性能都开始停滞或下降。删除冗余图像块后,同样的Token预算能容纳更多有效信息,饱和点因此被延迟。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策