上海交大AI视觉技能包测评:看图办事背后的技术榜单
我们操作电脑时,许多动作近乎本能——在表格中插入图表,扫一眼屏幕就知道该点哪里、下一步做什么、结果是否正确。但对人工智能而言,这种基于视觉的“情境判断”能力,始终是核心挑战。
近期,上海交通大学联合小红书与东南大学的研究团队,为AI攻克了这一关键瓶颈。他们提出了名为“MMSkills”的框架,旨在赋予AI助手结合视觉信息执行任务的能力,如同人类一般。该研究成果已于2026年5月发表于arXiv预印本平台。
理解这项研究的突破,需从当前AI助手的普遍局限谈起。现有AI技能,好比贴在墙上的纯文字菜谱。煮泡面尚可应付,一旦面对“判断牛排熟度”这类需要观察色泽、油花与肉汁的任务,文字描述便彻底失效。AI操作图形界面时正面临此困境:它或许“知道”要点击保存,却无法“识别”屏幕上哪个是保存按钮,或难以判断弹窗是否加载完毕。
研究团队指出,对于需要在视觉环境中工作的AI,仅提供文字说明书是远远不够的。必须为其配备一份“图文并茂的操作手册”。这份手册不仅要指导AI“做什么”,更要明确“看什么”、“何时做”以及“如何验证”。
一、当文字菜谱遇上视觉难题
设想一个任务:在表格软件中创建图表,要求置于第二个工作表,并将标题命名为“销售与成本”。这对传统AI助手极易出错。
若不给任何指导,AI可能直接在第一个工作表上绘图——位置错误。若只提供纯文字步骤,AI会机械执行,仍可能因无法定位工作表而失败。但若给予一份带图的操作手册,情况则不同。手册在关键步骤附有屏幕截图,指示AI“见此界面时执行此操作”、“完成后屏幕应呈现此状态”。AI通过比对当前屏幕,便能理解:需要先剪切图表,切换到第二个工作表粘贴,最后验证标题是否正确。任务得以顺利完成。
此案例揭示了核心问题:如何将人类“看着办”的直觉,转化为AI可调用、可理解的标准化知识包。
二、一个完整技能包里都装了什么
研究团队设计的“多模态技能包”,其结构如同精心编排的旅行攻略,由多个有机部分组成。
基础部分是文字描述的操作流程,构成技能包的骨架,相当于攻略中的路线说明。
骨架之上,是创新的“状态卡片”。每张卡片如同一个关键路标,明确界定:技能在何种情境下适用(或禁用)、当前应关注屏幕的哪些视觉特征、如何验证操作成功、以及有哪些可选参考画面。它好比告诉游客:“当你看见左侧悬挂红灯笼的餐馆,即抵达老城区入口,此时应右转;若看到连锁咖啡店,则说明走错了方向。”
再往上,是关键画面的图片集合。每个重要状态配有多张参考图:全景图展示整体环境,局部特写聚焦关键控件,“操作前”与“操作后”的对比图则清晰呈现变化过程。这些图片并非让AI照搬坐标点击的模板,而是辅助其识别与定位的视觉线索。AI的每一个具体操作,最终仍需基于对实时屏幕的分析。
三、从公开数据里“提炼”技能的妙招
这些“图文攻略”从何而来?研究团队设计了一套自动化流程,能够从公开的电脑操作录像中“蒸馏”出技能包,过程分为五步。
首先是分类整理。系统将海量操作录像按任务相似性聚类,如同将食材按菜系分门别类。
接着是规划技能蓝图。在每类任务中,一个AI“主厨”会浏览录像,识别反复出现的有效操作模式,并初步规划技能蓝图,界定每个技能的边界与完成条件。
第三步是合并去重。合并不同录像中相似的技能蓝图,同时剔除过于宽泛、缺乏具体指导意义的“万金油”技能。
第四步是先写文字稿。系统仅依据文本信息,撰写每个技能的描述、步骤和状态卡片初稿,这类似于先撰写小说大纲再配插图。
最后是配图与审核。系统查看相关截图,挑选真正具有诊断价值的关键画面——通常是标志状态转变或需要视觉验证的时刻——将它们匹配到对应的状态卡片旁。配图原则极其克制:仅在文字无法清晰说明时才配图,绝不堆砌无关截图。
这套流程的关键在于,用于提炼技能的录像数据与后续测试任务完全分离,确保了技能包是从无关经验中提炼出的、真正可迁移的知识,而非“考前漏题”。
四、用技能时的“分身术”
技能包制作完成后,如何让AI在实际中有效使用,是另一道难关。最直接的方法是将整个技能包塞给AI,让其边看边做。但研究发现这会带来问题:过多的状态卡片和参考图会挤占AI的“工作记忆”,更糟的是,AI容易过度依赖参考图,而忽略当前屏幕的实际状况,如同拿着过时的地图开车却不看眼前的路。
为此,团队设计了一个巧妙的“分支加载”机制,可理解为AI的“分身术”。当主AI在工作中需要参考某个技能时,它不会亲自翻阅整本手册,而是召唤一个临时的“分身助手”专门处理此事。
分身助手分两步工作:第一步,审视当前屏幕和操作历史,判断是否需要以及需要调用哪些视觉参考。若文字说明足够,则不调用图片;若需要,则仅挑选最相关的几张。第二步,分身将选出的参考图与文字状态卡片一同与当前屏幕仔细比对,最终向主AI回传一份精炼的“决策建议”——包括该技能是否适用、下一步目标、具体行动计划、潜在风险以及完成验证方式。
主AI将此建议作为参考,但最终的具体操作仍基于对真实屏幕的实时判断。这样,AI既获得了技能包的智慧指引,又避免了被静态参考资料误导。
五、实战检验:从办公软件到游戏世界
为全面检验框架效果,研究团队设置了四个差异巨大的测试场景。
主战场是OSWorld,包含360个真实的Ubuntu桌面任务,覆盖浏览器、办公软件等十类应用。macOSWorld则将环境切换到苹果系统。VAB-Minecraft让AI在《我的世界》游戏中完成制作任务。Super Mario Bros则更进一步,挑战经典的超级马里奥游戏。
结果令人鼓舞。在最严格的OSWorld测试中,所有AI模型因使用MMSkills而表现提升。表现最强的Gemini 3.1 Pro成功率从44.08%提升至50.11%;Gemini 3 Flash从36.65%跃升至47.97%。提升最显著的是阿里通义千问的Qwen3-VL-235B模型,成功率从21.34%几乎翻倍至39.17%。而较小的Qwen3-VL-8B-Instruct模型提升更为惊人,从仅10.78%飙升至25.40%。一个有趣的现象是:能力越弱的模型,从外部视觉指导中获益越大,恰如新手厨师比资深大厨更需要详细的食谱。
值得注意的是,纯文字技能在某些场景下也有帮助,但效果远不如多模态版本稳定,甚至在部分应用上会出现倒退。这印证了核心判断:当任务依赖视觉状态判断时,仅有文字描述是远远不够的。
在其他场景中,效果同样亮眼。在macOSWorld上,使用MMSkills的Gemini 3 Flash将整体成功率从55.94%提升至65.73%。在《我的世界》和超级马里奥游戏中,所有模型的成功率或平均得分均有显著提升。这表明,该技能框架能普遍增强AI在各种需要“看图办事”场景中的能力。
六、拆解每个零件的作用
为弄清MMSkills框架中哪些设计真正关键,研究团队进行了一系列“消融实验”,如同拆解机器观察每个齿轮的功能。
当移除了技能包中的“状态卡片”,仅保留文字流程和图片时,AI性能明显下降——状态卡片在判断“此时是否该用此技能”上至关重要。反之,保留状态卡片但去掉图片,性能同样下滑——图片对于在屏幕上定位目标不可或缺。这两项实验共同证明,文字流程、状态卡片和视觉证据三者如同鼎之三足,缺一不可。
关于“分支加载”使用方式的实验更有意思。若将整个技能包直接塞给AI,性能反而比不用技能还差——信息过载“撑坏”了AI。即使加入了视图筛选机制但仍直接加载,效果也仅回归基线水平。只有采用完整的两步分支机制——先筛选、再分析、最后回传建议——才能取得最佳效果。
七、AI行为方式的悄然转变
除了成功率的提升,研究团队还深入分析了使用MMSkills后AI“行为习惯”的微观变化,发现了一些深刻转变。
首先是技能调用频率上升。配备多模态技能后,AI更倾向于主动参考技能。例如,Qwen3-VL-235B模型在OSWorld任务中调用技能的比例从37.50%大幅上升至65.28%。这说明多模态技能不仅更有用,也更容易被AI识别为“此时可用”。
其次是任务步骤的简化。文字技能有时会让AI绕远路,而多模态技能在所有测试场景中都减少了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降至9.87步,减少了超过三分之一。这意味着AI找到了更高效的路径,不再盲目尝试。
第三是关于视觉证据的偏好。分支助手并非加载所有图片,而是表现出明显倾向——在四个测试场景中的三个里,“局部特写”是被选用最多的视图类型。这符合直觉:大多数时候,AI需要的是“按钮在哪”这类局部信息,仅在理解整体布局或验证变化时才需要全屏或对比图。
更深入的行为分析揭示了根本性变化。使用MMSkills后,AI执行的无效低级操作总数显著减少。以Qwen3-VL-235B为例,其原本75.8%的动作是点击,使用技能后降至63.7%,而键盘输入和“完成”动作的比例相应上升。这表明AI从盲目点击转向了更有条理的输入和明确的结果判断。
重复无效操作也大幅减少。同一个模型,原本21.8%的动作是重复操作,使用MMSkills后骤降至6.2%。AI不再陷入“反复点击同一处却无进展”的循环。同时,“完成”动作使用频率上升,说明AI更清楚任务何时真正结束——这得益于状态卡片中的验证线索。
八、两个真实任务的现场直击
通过两个具体案例,可以更直观地理解MMSkills的工作方式。
案例一:在表格软件中创建销售汇总表。 任务要求创建一个名为Sheet2的新工作表,并填入月份和总计数据。AI首先意识到当前位于Sheet1,需创建新工作表,于是召唤分支助手参考“工作表管理”技能。分身助手挑选了几张关于工作表切换的特写图,对照当前屏幕后建议:“先创建Sheet2,切勿在Sheet1直接输入数据”。主AI随即创建新工作表并输入表头与月份。当需要填入总计公式时,AI又召唤了第二个技能——“公式与函数”。这次分支助手判断无需参考图片,直接给出了文字指导。最终,AI成功使用SUM公式从Sheet1引用数据,全程仅用8步动作。
案例二:在终端命令行中管理文件。 任务要求将30天前的旧文件压缩至一个文件夹,将新文件移至另一个文件夹。AI最初尝试的find命令出现了语法错误。意识到问题后,AI召唤“文件夹管理”技能。分支助手判断终端任务无需看图,直接用文字建议“使用更稳健的命令格式”。AI修正命令后成功移动文件。随后进行压缩归档时,AI又调用了不同的“归档压缩”技能,最终顺利完成任务并验证结果。
这两个案例生动展示了MMSkills的动态工作流程:AI在不同阶段调用不同技能,分支助手智能判断是否需要视觉证据,最终AI综合所有信息做出决策。
九、与已有方法的对比
在AI助手领域,“技能”并非全新概念。早期研究将技能表达为文字提示或可执行代码。后续出现了更精细的方法,例如将技能存储为API函数、构建技能执行图,或让多个AI协作进化出共享技能库。
与本研究最接近的几项工作各有侧重。例如,有研究引入层次化多模态技能用于图形界面控制,有工作从视觉化操作经验中持续提取技能,也有方法将计算机操作技能表达为带参数的过程图。MMSkills的关键区别在于:它围绕“运行时状态卡片”和“多视角视觉证据”来组织技能,并通过“分支加载”机制,将筛选后的证据与当前屏幕对齐后再指导行动。换言之,它不仅关注“如何做动作”,更强调“在何种状态下做、依据什么视觉线索做、以及如何验证结果”。
十、这一切对普通人意味着什么
归根结底,这项研究瞄准的是一个非常实际的目标:让AI助手在协助我们操作电脑、处理视觉任务时,变得更可靠、更少犯低级错误。
这意味着,未来的AI助手或许真能胜任那些繁琐且需要“眼力见”的工作——无论是整理复杂表格、调整图片,还是安排日程、甚至通关游戏。它们不会再因为找不到按钮而胡乱点击,不会因识别不出弹窗状态而傻等,也不会做到一半却不知道任务是否完成。
对于AI研究者而言,这项工作提供了一个新视角:AI可复用的经验,不应仅是文字说明书或代码模板,而应是紧密绑定视觉证据的“图文操作指南”。这一思路打破了以往技能体系过度依赖文本的局限。
当然,研究团队也坦诚指出了当前方法的局限。其效果依赖于源数据的覆盖广度——若某类任务在公开数据中罕见,提炼出的技能可能不完善。技能生成过程和视觉定位也可能出错。分支加载机制虽提升了准确性,但也增加了推理成本。要将此方法推广至更广泛的实体AI或安全敏感场景,还需要更强的验证机制和在线修正能力。
这项研究揭示了一个朴素却关键的道理:要让AI真正学会“看着办”,仅提供文字说明是远远不够的。就像教孩子做饭,光给菜谱不行,还得让他观察师傅的手法、锅中食材的变化、以及如何判断火候。AI能力的进步,往往就藏在这些看似细微、实则至关重要的“图文配合”之中。
Q&A
Q1:MMSkills和传统的AI技能包有什么区别?
A:传统AI技能包主要用文字或代码描述操作步骤,如同纯文字菜谱。而MMSkills是图文结合的技能包,除文字流程外,还包含“状态卡片”和多视角参考截图。状态卡片明确告知AI技能的使用时机、禁忌条件以及成功验证的视觉标准,让AI不仅知道“做什么”,更清楚“看什么”和“如何判断”。
Q2:分支加载机制是怎么工作的?
A:当AI执行任务中需要参考技能时,并非自行翻阅整个技能手册,而是召唤一个“临时分身”专门处理。该分身先评估是否需要以及需要哪些视觉参考,随后将精选的参考图与当前屏幕比对,最终向主AI提交一份精炼的行动建议——包括技能适用性、下一步目标、潜在风险等。主AI以此建议为参考,但最终操作仍基于实时屏幕分析,从而在获得指导的同时避免被静态参考图误导。
Q3:MMSkills实际效果如何?
A:在OSWorld桌面任务测试中,所有受测AI模型性能均有提升。例如,Qwen3-VL-235B的成功率从21.34%提升至39.17%;较小的Qwen3-VL-8B模型从10.78%提升至25.40%。在《我的世界》和超级马里奥游戏测试中,AI的成功率或得分也显著提升。此外,AI完成任务所需的步骤更少,重复无效操作大幅减少,行为模式变得更加高效和有条理。
