东南大学与微软合作：AI助手实现拖拽绘图，超越传统点击交互

2026-05-19阅读 0热度 0

AI助手

一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合开展的研究，于2026年5月在arXiv平台以预印本形式发布（编号arXiv:2605.12501v1）。该研究精准定位了当前AI智能体在真实人机交互中的一个关键短板：它们普遍缺乏执行复杂“物理”操作的能力。

超越点击：AI的交互能力瓶颈

审视日常的桌面工作流：在Excel中拖拽填充柄、在Word文档中框选并移动段落、在Photoshop中用钢笔工具勾勒路径、在PPT中将多个对象对齐——这些涉及连续坐标定位的复合操作，构成了当前自动化AI助手的核心能力盲区。

尽管GPT-o3、Claude等“计算机使用智能体”已能基于屏幕截图理解状态并执行部分任务，但基准测试揭示了一个显著缺陷：面对拖拽、框选、描边等需要精确坐标序列的操作时，主流模型的失败率远高于简单的按钮点击。这暴露了现有训练范式在模拟真实交互复杂性上的不足。

研究团队将此定义为“长尾交互问题”：绝大多数操作失败集中在那些出现频率较低但交互复杂度高的任务类型上。其根源在于训练数据的结构性失衡——点击操作的数据极易获取，而“在图像编辑软件中精确勾勒物体轮廓”这类操作的标注样本则近乎空白。

性能诊断：GPT-o3在真实任务中的失效分析

为量化问题，研究团队在微软Azure平台上收集了近200个涵盖办公软件、网页浏览及电子游戏的真实任务，交由GPT-o3执行并深度分析其失败模式。

数据指向明确。在办公场景中，37%的失败源于“动作定位错误”——AI知道该执行什么指令，却无法在屏幕上精准定位操作目标。这一比例远超规划错误，成为主要失效原因。在涉及拖拽等复合动作的任务中，坐标定位的出错率显著高于基础点击操作。

网页浏览场景呈现相似规律，而游戏场景则以策略规划错误为主。这份诊断报告清晰地指出了两大瓶颈：现有评测体系无法有效评估复杂交互能力，而训练数据也严重缺乏此类样本。

新度量标准：CUActSpot基准的构建逻辑

为准确度量复杂交互能力，研究团队手工构建了CUActSpot评测基准。其核心创新在于突破了传统基准仅测试“点击”的局限。

传统基准通常遵循固定模式：给定屏幕截图，要求模型输出一个点击坐标，并判断其是否落在目标区域内。这相当于只测试“识别”能力，而忽略了“操控”技能。

CUActSpot将评测维度扩展至五类操作对象：标准UI组件、文本内容、表格、画布及自然图像。交互动作也从点击延伸至拖拽（需起点与终点坐标）和绘制（需输出连续坐标点序列）。该基准包含206个精心设计的样本，覆盖12种高层任务与33种细分任务，每个样本均经过至少四轮人工验证以确保质量。

评分机制也进行了针对性设计。对于多坐标点任务，系统区分“有序”与“无序”操作。同时引入“禁止区域”概念，防止模型通过全屏随机点击来投机取巧。

数据合成引擎：以程序化渲染破解标注难题

定义了评测标准后，团队着手解决训练数据稀缺的核心难题。他们设计了一套全新的数据合成流水线，其核心思路具有突破性：与其从海量真实软件截图中进行昂贵的人工坐标标注，不如直接通过代码程序化地“渲染”出自带精确坐标元数据的截图。

这相当于从“逆向工程分析成品”转向“基于蓝图正向生成”。由于图像由代码直接渲染，每个界面元素的坐标、边界框等信息均可自动、无损地获取。在此基础上，利用高级AI模型（如OpenAI o3）作为“任务生成器”，根据坐标信息自动编写对应的操作指令，甚至能进行逻辑推演以创造复杂任务。

针对五类操作对象，团队设计了专属的渲染方案：

界面元素：复用Phi-Ground项目的网页爬取与渲染流水线，最终获得约1050万个高质量样本。
文本数据：采用“拼贴”方案，将维基百科等文本内容渲染到多样化背景上，并精确记录每个字符的坐标。
表格数据：通过内容演化、样式随机化、单元格遮挡等步骤，生成视觉风格高度多样的表格截图。
画布数据：使用程序化的PowerPoint模拟器，生成包含随机形状的编辑界面，高度模拟真实软件的视觉细节。
自然图像：直接利用Meta开源的SAM数据集，处理成可用于“抠图”类任务的边界曲线数据。

通过这套流水线，团队最终生成了规模约5000万条的训练样本集。

模型训练与对比：小参数模型的逆袭

利用这批合成数据，研究团队以参数约40亿的视觉语言模型Phi-3.5-VL为基础进行训练。选择较小规模的模型，旨在纯粹检验数据质量与多样性的价值，而非依赖模型容量。

训练得到的模型Phi-Ground-Any-4B，在CUActSpot基准上取得了44.4%的总体得分，超越了所有参数量低于320亿的开源模型。一些参数量更大的模型在该基准上的表现反而逊色。这一结果凸显了高质量专项数据的重要性。

然而，当转向ScreenSpot-Pro和UI-Vision这两个主流评测基准时，Phi-Ground-Any-4B的表现则趋于平庸。这种性能反差引出了一个更深层次的议题。

基准偏差：通用定位能力 vs. 软件知识记忆

论文深入探讨了这种性能反差。ScreenSpot-Pro等主流基准覆盖了大量真实专业软件，其许多任务本身要求具备特定软件的先验知识。例如，“点击Photoshop中的减淡工具图标”——如果模型从未接触过该软件的界面布局，则根本无法识别目标。

这种设计有其应用价值，但它导致评测分数混杂了两种能力：模型的“通用屏幕定位能力”与其对“特定软件界面的记忆程度”。一个使用某基准相关数据专门微调过的模型，自然能在该基准上获得高分，但这未必代表其真实泛化能力的提升。

团队通过实验验证了这一点：将Phi-Ground-Any-4B在包含常见软件截图的数据上微调后，其在ScreenSpot-Pro和UI-Vision上的分数大幅提升，但在CUActSpot上的得分却下降了。这说明，针对特定软件知识的训练，确实能优化在依赖该知识的基准上的表现，但可能损害甚至无助于通用定位能力的培养。

更具说服力的实验在OSWorld端到端真实任务基准上进行：让GPT-o3统一担任“任务规划者”，不同模型担任“执行者”。结果显示，某些在ScreenSpot-Pro上得分高出GPT-o3近30个百分点的模型，在OSWorld上的实际任务完成率并无优势。而Phi-Ground-Any-4B在ScreenSpot-Pro上得分不高，在OSWorld上却能达到接近GPT-o3自执行的水平。这表明，CUActSpot的排名与模型在真实任务中的执行能力具有更高的相关性。

数据多样性法则：广度优于深度

论文的另一项关键发现，来自对训练数据构成的系统性消融实验。

团队从零开始，逐步引入不同模态的训练数据，并观察模型性能的变化。实验揭示了一个重要规律：单纯增加单一模态的数据量，其性能收益会迅速递减；但每次引入一种全新模态的数据，不仅该模态对应的测试分数会显著跃升，其他已有模态的分数也会获得连带增益。

例如，引入文本模态数据后，不仅文本任务的得分提升，界面元素任务的得分也同步增长。相比之下，将界面元素数据从200万条增加到500万条带来的提升则有限得多。

研究团队将这种现象命名为“多样性缩放”。其内在逻辑在于，要同时胜任文本选择、表格操作、图形拖拽、图像定位等差异显著的任务，模型必须习得一些底层的、跨任务通用的表征与推理能力，例如对目标空间位置、边界范围以及合理操作轨迹的理解。这些通用能力，只有在接触足够多样化的任务类型后才能被有效激发和巩固。过度专注于单一任务类型的数据堆砌，反而可能导致模型陷入过拟合。

零样本泛化：能力的组合与迁移

除了多样性缩放，研究还观察到了显著的“跨任务泛化”现象。CUActSpot包含33种细分任务，而训练数据仅覆盖了其中的20种。然而，模型在实际测试中能够成功完成27种任务。

这意味着，有7种在训练中从未出现过的任务类型，模型通过“组合”已习得的知识，自行推导出了解决方案。例如，模型分别掌握了“操作文字”和“操作图像区域”的能力，当面对“操作图像中的文字”这类新任务时，便能将两种能力融合，实现零样本泛化。

这种跨任务泛化能力极具价值：随着训练数据模态和任务类型的持续扩展，AI助手应对全新、未见过的操作类型的能力有望同步增强，其能力边界将不再被训练样本严格限定。

研究总结：问题、工具与路径

总体而言，这项研究完成了三个紧密关联的贡献：

第一，精准识别了行业盲点：指出当前AI操控能力评测过度偏向“点击”，忽视了拖拽、绘制等关键复合操作，导致研发方向与真实需求存在偏差。

第二，提供了系统性解决方案：包括能更准确衡量复杂操作能力的CUActSpot诊断性基准，以及能大规模、低成本生成复杂操作训练数据的数据合成流水线。

第三，指明了数据策略方向：对于训练通用的电脑操控AI，训练数据的多样性（覆盖的操作类型和对象模态）可能比单一模态的数据规模更为关键。要构建真正实用的AI助手，应优先系统化地扩展其“见识”的广度。

当然，研究也存在局限。CUActSpot作为诊断基准，样本量有限，未覆盖长序列的复杂任务。合成数据与真实截图之间的分布差异也未完全弥合——实验表明，模型仍需在真实数据上微调，才能在软件知识密集的基准上取得最佳表现。

然而，在仅40亿参数规模上，通过纯合成数据训练即能达到如此性能，本身就验证了该技术路线的巨大潜力。随着合成数据质量与真实性的持续进化，一个能熟练拖拽Excel公式、在设计软件中精准抠图的AI助手，其实现路径正变得愈发清晰。

Q&A

Q1：CUActSpot评测基准和ScreenSpot-Pro这类主流评测基准有什么本质区别？

A：根本区别在于评测焦点与设计哲学。ScreenSpot-Pro等基准主要测试点击操作，且大量题目依赖对特定软件界面的先验知识，导致分数混合了“通用定位能力”和“软件界面记忆”。CUActSpot则专门扩展测试拖拽、绘制等复合动作，覆盖文本、表格等五种对象，并尽可能减少对专业知识的依赖，使其评测结果更能纯粹反映模型的底层屏幕理解与坐标定位能力。实验证明，其模型排名与在真实、复杂任务中的完成率相关性更高。

Q2：Phi-Ground-Any-4B的训练数据是怎么生成的，为什么不直接用真实截图？

A：采用代码渲染生成截图，核心优势在于数据标注的零成本与高精度。在程序化渲染过程中，每个界面元素的坐标、尺寸等元数据天然可得，完全避免了从海量真实截图中进行昂贵、低效且易出错的人工标注。五种模态分别通过网页渲染引擎、字体渲染库、表格生成器、画布模拟器及利用现有分割数据集实现。这种方法能以极低的边际成本生成数千万条带精确坐标标注的样本，并可通过AI自动生成复杂的、符合逻辑的操作指令序列。

Q3：“多样性缩放”这个发现对AI训练有什么实际意义？

A：这一发现对构建通用AI助手的数据策略具有直接指导意义。它表明，盲目堆砌同一类操作（例如只点击按钮）的数据，其性能收益会很快触及天花板。相反，系统性地引入多种操作类型（如文本选择、图形拖拽、图像轮廓描绘）的数据，不仅能提升对应任务的能力，还能通过促进底层通用能力的形成，带动其他任务表现的普遍增长。这意味着，在规划AI助手训练时，应优先考虑数据类型的广度与系统性覆盖，而非仅仅追求单一类型数据的数量规模。