上海交大AI视觉技能包测评：看图办事背后的技术榜单

2026-05-24阅读 0热度 0

上海交大

我们操作电脑时，许多动作近乎本能——在表格中插入图表，扫一眼屏幕就知道该点哪里、下一步做什么、结果是否正确。但对人工智能而言，这种基于视觉的“情境判断”能力，始终是核心挑战。

近期，上海交通大学联合小红书与东南大学的研究团队，为AI攻克了这一关键瓶颈。他们提出了名为“MMSkills”的框架，旨在赋予AI助手结合视觉信息执行任务的能力，如同人类一般。该研究成果已于2026年5月发表于arXiv预印本平台。

理解这项研究的突破，需从当前AI助手的普遍局限谈起。现有AI技能，好比贴在墙上的纯文字菜谱。煮泡面尚可应付，一旦面对“判断牛排熟度”这类需要观察色泽、油花与肉汁的任务，文字描述便彻底失效。AI操作图形界面时正面临此困境：它或许“知道”要点击保存，却无法“识别”屏幕上哪个是保存按钮，或难以判断弹窗是否加载完毕。

研究团队指出，对于需要在视觉环境中工作的AI，仅提供文字说明书是远远不够的。必须为其配备一份“图文并茂的操作手册”。这份手册不仅要指导AI“做什么”，更要明确“看什么”、“何时做”以及“如何验证”。

一、当文字菜谱遇上视觉难题

设想一个任务：在表格软件中创建图表，要求置于第二个工作表，并将标题命名为“销售与成本”。这对传统AI助手极易出错。

若不给任何指导，AI可能直接在第一个工作表上绘图——位置错误。若只提供纯文字步骤，AI会机械执行，仍可能因无法定位工作表而失败。但若给予一份带图的操作手册，情况则不同。手册在关键步骤附有屏幕截图，指示AI“见此界面时执行此操作”、“完成后屏幕应呈现此状态”。AI通过比对当前屏幕，便能理解：需要先剪切图表，切换到第二个工作表粘贴，最后验证标题是否正确。任务得以顺利完成。

此案例揭示了核心问题：如何将人类“看着办”的直觉，转化为AI可调用、可理解的标准化知识包。

二、一个完整技能包里都装了什么

研究团队设计的“多模态技能包”，其结构如同精心编排的旅行攻略，由多个有机部分组成。

基础部分是文字描述的操作流程，构成技能包的骨架，相当于攻略中的路线说明。

骨架之上，是创新的“状态卡片”。每张卡片如同一个关键路标，明确界定：技能在何种情境下适用（或禁用）、当前应关注屏幕的哪些视觉特征、如何验证操作成功、以及有哪些可选参考画面。它好比告诉游客：“当你看见左侧悬挂红灯笼的餐馆，即抵达老城区入口，此时应右转；若看到连锁咖啡店，则说明走错了方向。”

再往上，是关键画面的图片集合。每个重要状态配有多张参考图：全景图展示整体环境，局部特写聚焦关键控件，“操作前”与“操作后”的对比图则清晰呈现变化过程。这些图片并非让AI照搬坐标点击的模板，而是辅助其识别与定位的视觉线索。AI的每一个具体操作，最终仍需基于对实时屏幕的分析。

三、从公开数据里“提炼”技能的妙招

这些“图文攻略”从何而来？研究团队设计了一套自动化流程，能够从公开的电脑操作录像中“蒸馏”出技能包，过程分为五步。

首先是分类整理。系统将海量操作录像按任务相似性聚类，如同将食材按菜系分门别类。

接着是规划技能蓝图。在每类任务中，一个AI“主厨”会浏览录像，识别反复出现的有效操作模式，并初步规划技能蓝图，界定每个技能的边界与完成条件。

第三步是合并去重。合并不同录像中相似的技能蓝图，同时剔除过于宽泛、缺乏具体指导意义的“万金油”技能。

第四步是先写文字稿。系统仅依据文本信息，撰写每个技能的描述、步骤和状态卡片初稿，这类似于先撰写小说大纲再配插图。

最后是配图与审核。系统查看相关截图，挑选真正具有诊断价值的关键画面——通常是标志状态转变或需要视觉验证的时刻——将它们匹配到对应的状态卡片旁。配图原则极其克制：仅在文字无法清晰说明时才配图，绝不堆砌无关截图。

这套流程的关键在于，用于提炼技能的录像数据与后续测试任务完全分离，确保了技能包是从无关经验中提炼出的、真正可迁移的知识，而非“考前漏题”。

四、用技能时的“分身术”

技能包制作完成后，如何让AI在实际中有效使用，是另一道难关。最直接的方法是将整个技能包塞给AI，让其边看边做。但研究发现这会带来问题：过多的状态卡片和参考图会挤占AI的“工作记忆”，更糟的是，AI容易过度依赖参考图，而忽略当前屏幕的实际状况，如同拿着过时的地图开车却不看眼前的路。

为此，团队设计了一个巧妙的“分支加载”机制，可理解为AI的“分身术”。当主AI在工作中需要参考某个技能时，它不会亲自翻阅整本手册，而是召唤一个临时的“分身助手”专门处理此事。

分身助手分两步工作：第一步，审视当前屏幕和操作历史，判断是否需要以及需要调用哪些视觉参考。若文字说明足够，则不调用图片；若需要，则仅挑选最相关的几张。第二步，分身将选出的参考图与文字状态卡片一同与当前屏幕仔细比对，最终向主AI回传一份精炼的“决策建议”——包括该技能是否适用、下一步目标、具体行动计划、潜在风险以及完成验证方式。

主AI将此建议作为参考，但最终的具体操作仍基于对真实屏幕的实时判断。这样，AI既获得了技能包的智慧指引，又避免了被静态参考资料误导。

五、实战检验：从办公软件到游戏世界

为全面检验框架效果，研究团队设置了四个差异巨大的测试场景。

主战场是OSWorld，包含360个真实的Ubuntu桌面任务，覆盖浏览器、办公软件等十类应用。macOSWorld则将环境切换到苹果系统。VAB-Minecraft让AI在《我的世界》游戏中完成制作任务。Super Mario Bros则更进一步，挑战经典的超级马里奥游戏。

结果令人鼓舞。在最严格的OSWorld测试中，所有AI模型因使用MMSkills而表现提升。表现最强的Gemini 3.1 Pro成功率从44.08%提升至50.11%；Gemini 3 Flash从36.65%跃升至47.97%。提升最显著的是阿里通义千问的Qwen3-VL-235B模型，成功率从21.34%几乎翻倍至39.17%。而较小的Qwen3-VL-8B-Instruct模型提升更为惊人，从仅10.78%飙升至25.40%。一个有趣的现象是：能力越弱的模型，从外部视觉指导中获益越大，恰如新手厨师比资深大厨更需要详细的食谱。

值得注意的是，纯文字技能在某些场景下也有帮助，但效果远不如多模态版本稳定，甚至在部分应用上会出现倒退。这印证了核心判断：当任务依赖视觉状态判断时，仅有文字描述是远远不够的。

在其他场景中，效果同样亮眼。在macOSWorld上，使用MMSkills的Gemini 3 Flash将整体成功率从55.94%提升至65.73%。在《我的世界》和超级马里奥游戏中，所有模型的成功率或平均得分均有显著提升。这表明，该技能框架能普遍增强AI在各种需要“看图办事”场景中的能力。

六、拆解每个零件的作用

为弄清MMSkills框架中哪些设计真正关键，研究团队进行了一系列“消融实验”，如同拆解机器观察每个齿轮的功能。

当移除了技能包中的“状态卡片”，仅保留文字流程和图片时，AI性能明显下降——状态卡片在判断“此时是否该用此技能”上至关重要。反之，保留状态卡片但去掉图片，性能同样下滑——图片对于在屏幕上定位目标不可或缺。这两项实验共同证明，文字流程、状态卡片和视觉证据三者如同鼎之三足，缺一不可。

关于“分支加载”使用方式的实验更有意思。若将整个技能包直接塞给AI，性能反而比不用技能还差——信息过载“撑坏”了AI。即使加入了视图筛选机制但仍直接加载，效果也仅回归基线水平。只有采用完整的两步分支机制——先筛选、再分析、最后回传建议——才能取得最佳效果。

七、AI行为方式的悄然转变

除了成功率的提升，研究团队还深入分析了使用MMSkills后AI“行为习惯”的微观变化，发现了一些深刻转变。

首先是技能调用频率上升。配备多模态技能后，AI更倾向于主动参考技能。例如，Qwen3-VL-235B模型在OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更有用，也更容易被AI识别为“此时可用”。

其次是任务步骤的简化。文字技能有时会让AI绕远路，而多模态技能在所有测试场景中都减少了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步，减少了超过三分之一。这意味着AI找到了更高效的路径，不再盲目尝试。

第三是关于视觉证据的偏好。分支助手并非加载所有图片，而是表现出明显倾向——在四个测试场景中的三个里，“局部特写”是被选用最多的视图类型。这符合直觉：大多数时候，AI需要的是“按钮在哪”这类局部信息，仅在理解整体布局或验证变化时才需要全屏或对比图。

更深入的行为分析揭示了根本性变化。使用MMSkills后，AI执行的无效低级操作总数显著减少。以Qwen3-VL-235B为例，其原本75.8%的动作是点击，使用技能后降至63.7%，而键盘输入和“完成”动作的比例相应上升。这表明AI从盲目点击转向了更有条理的输入和明确的结果判断。

重复无效操作也大幅减少。同一个模型，原本21.8%的动作是重复操作，使用MMSkills后骤降至6.2%。AI不再陷入“反复点击同一处却无进展”的循环。同时，“完成”动作使用频率上升，说明AI更清楚任务何时真正结束——这得益于状态卡片中的验证线索。

八、两个真实任务的现场直击

通过两个具体案例，可以更直观地理解MMSkills的工作方式。

案例一：在表格软件中创建销售汇总表。 任务要求创建一个名为Sheet2的新工作表，并填入月份和总计数据。AI首先意识到当前位于Sheet1，需创建新工作表，于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表切换的特写图，对照当前屏幕后建议：“先创建Sheet2，切勿在Sheet1直接输入数据”。主AI随即创建新工作表并输入表头与月份。当需要填入总计公式时，AI又召唤了第二个技能——“公式与函数”。这次分支助手判断无需参考图片，直接给出了文字指导。最终，AI成功使用SUM公式从Sheet1引用数据，全程仅用8步动作。

案例二：在终端命令行中管理文件。 任务要求将30天前的旧文件压缩至一个文件夹，将新文件移至另一个文件夹。AI最初尝试的find命令出现了语法错误。意识到问题后，AI召唤“文件夹管理”技能。分支助手判断终端任务无需看图，直接用文字建议“使用更稳健的命令格式”。AI修正命令后成功移动文件。随后进行压缩归档时，AI又调用了不同的“归档压缩”技能，最终顺利完成任务并验证结果。

这两个案例生动展示了MMSkills的动态工作流程：AI在不同阶段调用不同技能，分支助手智能判断是否需要视觉证据，最终AI综合所有信息做出决策。

九、与已有方法的对比

在AI助手领域，“技能”并非全新概念。早期研究将技能表达为文字提示或可执行代码。后续出现了更精细的方法，例如将技能存储为API函数、构建技能执行图，或让多个AI协作进化出共享技能库。

与本研究最接近的几项工作各有侧重。例如，有研究引入层次化多模态技能用于图形界面控制，有工作从视觉化操作经验中持续提取技能，也有方法将计算机操作技能表达为带参数的过程图。MMSkills的关键区别在于：它围绕“运行时状态卡片”和“多视角视觉证据”来组织技能，并通过“分支加载”机制，将筛选后的证据与当前屏幕对齐后再指导行动。换言之，它不仅关注“如何做动作”，更强调“在何种状态下做、依据什么视觉线索做、以及如何验证结果”。

十、这一切对普通人意味着什么

归根结底，这项研究瞄准的是一个非常实际的目标：让AI助手在协助我们操作电脑、处理视觉任务时，变得更可靠、更少犯低级错误。

这意味着，未来的AI助手或许真能胜任那些繁琐且需要“眼力见”的工作——无论是整理复杂表格、调整图片，还是安排日程、甚至通关游戏。它们不会再因为找不到按钮而胡乱点击，不会因识别不出弹窗状态而傻等，也不会做到一半却不知道任务是否完成。

对于AI研究者而言，这项工作提供了一个新视角：AI可复用的经验，不应仅是文字说明书或代码模板，而应是紧密绑定视觉证据的“图文操作指南”。这一思路打破了以往技能体系过度依赖文本的局限。

当然，研究团队也坦诚指出了当前方法的局限。其效果依赖于源数据的覆盖广度——若某类任务在公开数据中罕见，提炼出的技能可能不完善。技能生成过程和视觉定位也可能出错。分支加载机制虽提升了准确性，但也增加了推理成本。要将此方法推广至更广泛的实体AI或安全敏感场景，还需要更强的验证机制和在线修正能力。

这项研究揭示了一个朴素却关键的道理：要让AI真正学会“看着办”，仅提供文字说明是远远不够的。就像教孩子做饭，光给菜谱不行，还得让他观察师傅的手法、锅中食材的变化、以及如何判断火候。AI能力的进步，往往就藏在这些看似细微、实则至关重要的“图文配合”之中。

Q&A

Q1：MMSkills和传统的AI技能包有什么区别？
A：传统AI技能包主要用文字或代码描述操作步骤，如同纯文字菜谱。而MMSkills是图文结合的技能包，除文字流程外，还包含“状态卡片”和多视角参考截图。状态卡片明确告知AI技能的使用时机、禁忌条件以及成功验证的视觉标准，让AI不仅知道“做什么”，更清楚“看什么”和“如何判断”。

Q2：分支加载机制是怎么工作的？
A：当AI执行任务中需要参考技能时，并非自行翻阅整个技能手册，而是召唤一个“临时分身”专门处理。该分身先评估是否需要以及需要哪些视觉参考，随后将精选的参考图与当前屏幕比对，最终向主AI提交一份精炼的行动建议——包括技能适用性、下一步目标、潜在风险等。主AI以此建议为参考，但最终操作仍基于实时屏幕分析，从而在获得指导的同时避免被静态参考图误导。

Q3：MMSkills实际效果如何？
A：在OSWorld桌面任务测试中，所有受测AI模型性能均有提升。例如，Qwen3-VL-235B的成功率从21.34%提升至39.17%；较小的Qwen3-VL-8B模型从10.78%提升至25.40%。在《我的世界》和超级马里奥游戏测试中，AI的成功率或得分也显著提升。此外，AI完成任务所需的步骤更少，重复无效操作大幅减少，行为模式变得更加高效和有条理。