2024年顶级AI技能库MMSkills测评:多模态程序性知识详解
上海交通大学与小红书研究团队近期发布的MMSkills项目,精准切入当前大模型智能体研究的核心挑战:如何让视觉Agent具备真正的状态理解与记忆能力。其核心突破在于,将Agent的技能库从传统的文本化操作流程,升级为融合视觉证据的多模态程序性知识。这意味着,视觉Agent不仅能检索“下一步点击哪里”,更能识别“关键状态应呈现何种视觉特征”,并基于此做出“看到此状态后该如何决策”的判断。
为何纯文本技能库难以支撑视觉Agent?
构建技能库的本质,是将任务经验进行外部化存储,以弥补模型参数在记忆所有交互细节上的不足。然而,当前主流的文本技能库存在一个根本性假设:所有关键状态都能用语言充分描述。
这一假设在纯文本任务中或许成立,但在涉及视觉交互的领域——如桌面操作、游戏控制或开放环境探索——便立刻失效。Agent的决策高度依赖于对视觉状态的瞬时感知:一个按钮是否处于高亮可点击状态?一个进度弹窗是否已加载完成?目标物品是否已在视野中被拾取?跳跃的最佳时机是否已出现?
这些决策依据,与其说是“操作步骤”,不如说是“状态识别与条件判断”。MMSkills正是抓住了这一核心,将视觉Agent的技能重新定义为一种结合了行动序列与视觉状态证据的多模态知识单元。
MMSkills的构成:流程、状态卡片与关键帧
一个完整的MMSkill由三个核心部分构成:
首先是文本流程,这部分继承了传统技能中对操作步骤的文字描述。
核心在于运行时状态卡片。它定义了诸如when_to_use(适用时机)、when_not_to_use(禁用条件)、visible_cues(可见线索)、verification_cue(验证线索)和a vailable_views(可用视图)等结构化条件。这相当于为每个技能附上了一份精准的“状态检查清单”与“使用指南”。
最后是多视角关键帧。它为状态卡片中定义的每一个关键条件提供了直观的视觉证据,可能包括全屏截图、局部特写、操作前后对比等多种视角。
这种设计将抽象的“文字指令”与具体的“视觉条件”进行了强绑定。对于大模型而言,技能不再是一段冗长的提示词,而是一个封装了状态记忆与识别证据的外部知识包。
从交互轨迹生成技能:提炼可复用的状态知识
生成文本技能或许可通过总结成功轨迹实现,但生成多模态技能则复杂得多。系统必须能判断:哪些视觉状态具有普适性?哪一帧画面最具代表性?关键视觉区域在哪里?如何将图像证据与抽象决策条件准确关联?
MMSkills设计了一个智能的轨迹到技能生成器。其流程经过精心设计:首先对大量公开的非测试交互轨迹进行嵌入与聚类分析;接着为每个任务簇规划技能结构;然后进行跨簇的合并、去重与泛化处理;生成流程和状态卡片的草案;最后,读取真实的关键帧画面,完成视觉信息的最终绑定与审计。
这一过程的关键在于,它并非简单存储原始操作录像,而是从海量交互中,蒸馏出那些可迁移、可泛化的“状态化知识”。
分支加载:面向多模态证据的上下文管理策略
对于LLM Agent而言,上下文长度并非越长越好。在多模态场景下,若将所有技能图片、状态描述全部塞入主上下文,只会引入大量噪声,干扰核心推理链。
MMSkills提出的“分支加载”机制,是一种面向多模态证据的“按需披露”策略:
主Agent先判断当前是否需要咨询某个特定技能;随后,一个临时的技能分支被激活,它仅加载当前决策所需的状态卡片与关键帧视图;该分支会将精选的视觉证据与实时屏幕画面进行比对分析;最终,它向主Agent返回一份结构化的决策指导,包括技能适用性、子目标、行动计划、禁忌动作及验证方式等。
这相当于将耗时的“视觉证据比对”工作从主推理线程中剥离,交由一个独立的“顾问”模块处理。主Agent接收到的是一份经过压缩和结构化的结论,从而显著降低了上下文污染与视觉信息过载带来的干扰。
实验结果:外部多模态知识有效补充模型先验
研究团队在四个主流视觉Agent基准上进行了全面评估,涵盖真实桌面环境(OSWorld, macOSWorld)、3D世界(VAB-Minecraft)和2D游戏(Super Mario Bros),并使用了包括Gemini、Qwen、GLM、Kimi在内的多个主流大模型。
结果显著。在OSWorld基准上,MMSkills为所有评测的模型家族均带来了性能提升。对于参数规模较小的模型,提升尤为突出——例如Qwen3-VL-8B模型的任务成功率从10.78%提升至25.40%。这有力证明,外部多模态技能提供的并非模型已掌握的知识,而是在模型内部“程序性先验”不足时,提供了关键的补充与支撑。
更重要的是,这种性能收益展现出良好的可迁移性。在macOS、Minecraft等视觉风格迥异的环境中,MMSkills同样带来了稳定的效果提升。
消融实验的洞察:信息需要智能组织,而非简单堆砌
通过细致的消融实验,MMSkills揭示了两个关键结论:
首先,状态卡片与多视角关键帧各自具备独立价值。前者辅助模型进行高层的逻辑判断(如技能当前是否适用),后者则帮助模型完成低层的感知对齐(如当前画面匹配哪个状态)。
其次,一个更值得注意的发现是:简单地将完整的多模态技能包全部加载到主上下文中,反而会损害模型性能。这对热衷于扩展上下文窗口的研究方向是一个重要提醒:在多模态场景下,信息并非越多越好,关键在于对证据的智能筛选、隔离推理以及结构化的信息回传。分支加载机制的有效性,正是对此观点的有力印证。
行为模式的演进:从盲目试错到状态感知
除了成功率数据,论文还深入分析了Agent底层行为模式的变化。引入MMSkills后,Agent的行为展现出更高的“智能性”:动作总数和重复性行为显著减少,对于任务完成状态的判断也更为稳定。
以Qwen3-VL-235B模型为例,其点击动作的比例从75.8%下降至63.7%,而完全重复的动作序列则从21.8%骤降至6.2%。这表明,MMSkills不仅仅是在提升任务成功率,更是在从根本上优化Agent的执行策略——使其从一种依赖大量试错的、反应式的“点击流”模式,转向一种基于状态识别的、更具规划性的“感知-决策”模式。
对LLM Agent研究方向的启示
MMSkills这项工作的意义,超越了一个高性能视觉Agent系统本身。它为更广泛的LLM Agent研究提供了几个明确的启示:
第一,经验外部化必须超越文本范畴。 对于依赖感知的任务,“状态”本身就是知识的核心组成部分。将视觉证据与操作流程深度融合,是构建真正通用、可迁移技能库的必然路径。
第二,多模态上下文需要运行时管理与过滤。 无差别地注入所有视觉信息会导致严重的上下文污染。未来的智能体架构需要更精细的“注意力”机制,能够动态地筛选、加载与当前决策最相关的多模态证据。
第三,技能调用本身应成为一个独立的推理问题。 分支加载机制展示了一种优雅的架构思路:将耗时的、细节性的证据检查工作委托给一个专门的“技能分支”处理,让主Agent专注于高层的规划与决策,仅接收结构化、摘要化的指导。这种“解耦”的设计思想,对于构建复杂、高效的智能体系统具有重要的参考价值。
结语
MMSkills通过将技能重新定义为“多模态程序性知识”,为视觉Agent赋予了实质性的状态记忆与情境感知能力。它不仅仅是一个性能提升工具,更代表了一种研究范式的转变:推动智能体从仅仅知道“如何操作”,进化到真正理解“为何在此刻、以此种方式操作”。这或许是迈向更可靠、更类人智能体的关键一步。






