OpenClaw多模态6B模型评测:性能超越Nano Banana 2的实战榜单
当前的多模态生成模型在标准任务上表现尚可,但面对复杂指令和多样化的下游应用时,其局限性便显露无遗。相比之下,近期兴起的智能体框架,如OpenClaw和Claude Code,在处理现实世界的复杂挑战时展现出更强的适应性与创造力。基于这一洞察,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,将智能体范式的成功经验引入多模态生成领域,提出了名为GEMS(Agent-Native Multimodal Generation with Memory and Skills)的创新框架。该框架的核心优势在于,它通过智能体化策略深度挖掘了中小模型的潜力,实验表明,一个仅60亿参数的模型在特定任务上甚至能超越部分闭源大模型。
GEMS:Agent-Native Multimodal Generation with Memory and Skills
GEMS框架的设计精髓在于,它系统性地借鉴了OpenClaw等先进智能体架构的核心理念,并将其适配于多模态内容生成场景,旨在解决现有模型在复杂推理与迭代优化上的不足。
该框架由三个相互协同的核心组件构成:
Agent Loop(智能体循环): 它建立了一个结构化的多智能体协作流程。这并非单次生成,而是一个包含规划、执行、评估与修正的闭环迭代过程。多个智能体分工明确,通过持续交互与反馈,确保输出结果逐步精确匹配复杂的用户指令。
Agent Memory(智能体记忆): GEMS采用了一种高效的分层记忆机制。它将历史交互中的关键事实数据进行无损存储,同时将冗长的思维链推理过程压缩为精炼的经验要点。这种策略在显著降低计算与存储开销的同时,为长序列任务提供了关键的上下文指引。
Agent Skill(智能体技能): 框架整合了一个可动态扩展的专家技能库。当系统判定任务需要特定领域知识时,即可调用预置的详细指令与示例。这相当于为模型配备了按需加载的“专业工具包”,极大拓展了其处理专业及创意性任务的能力边界。
实验分析
为验证GEMS框架的有效性,研究团队在涵盖五个主流任务和四个下游任务的基准上,对多个生成模型进行了广泛测试。
实验结果令人瞩目。在Z-Image-Turbo模型上应用GEMS框架后,其在主流任务上的平均性能提升了14.22%。在更具挑战性的下游任务上,其表现更是超越了此前的最佳基线模型8.92个百分点。这些数据充分证实了GEMS框架在提升模型性能与泛化能力方面的显著作用。
进一步分析
为了解构各模块的具体贡献,研究团队进行了系统的消融实验。
左图展示了性能随模块添加而逐步提升的过程。一个关键发现是:在GenEval2任务上,搭载完整GEMS框架的60亿参数Z-Image-Turbo模型,其性能甚至超过了知名的闭源大模型Nano Banana 2。这凸显了智能体化策略对小模型的巨大赋能潜力。 右图对比了不同记忆策略的效果,证明将思维链压缩为精炼经验的方案,其性能明显优于简单堆叠历史记录或完全禁用记忆。
此外,团队分析了生成轮次与最终性能的权衡关系。上图显示,GEMS框架能够以更少的平均迭代次数达到更高的性能水平,实现了生成效率与输出质量的双重优化。
进一步的消融实验指出,Memory和Skill模块是提升每次迭代质量的关键。它们使模型能更高效地利用历史上下文和领域知识,从而减少了达到优质结果所需的平均迭代次数。
技能加持,生成更有艺术感
GEMS框架中Agent Skills模块的价值,在视觉生成任务中体现得尤为直观。它能根据任务语义自动触发相应技能,从而显著提升生成内容的艺术表现力与创意水平。
以下两个案例展示了技能触发的具体效果:
案例1:山脉日出
未启用技能时,生成的山脉场景虽具真实性,但光影效果平淡,缺乏视觉张力与艺术感染力。
当触发“美学绘画”(Aesthetic Drawing)技能后,画面质感显著提升:光影对比更富层次,色彩渲染更具戏剧性,整体构图的美学价值得到增强。
案例2:漂浮的书
无技能状态下,书本仅呈现简单的悬浮状态,创意表达较为常规。
触发“创意绘画”(Creative Drawing)技能后,生成图像变得生动且富有想象力:书页如蝶翼般散开,并融入星空元素,营造出梦幻而富有叙事感的视觉氛围。
这些对比清晰地表明,GEMS的技能模块能够引导模型超越基础还原,产出更具表现力与创意的多模态内容。
结语
GEMS的研究工作证实,通过引入智能体化的管理与迭代机制,能够有效弥补基础生成模型在复杂任务上的能力短板。赋予模型结构化的记忆与可调用的技能,如同为创作者配备了经验库与专业工具集。这一范式表明,即便是参数规模较小的开源模型,在经过智能体框架的优化后,也完全有能力在复杂的多模态生成任务中,释放出媲美甚至超越大型闭源模型的潜力。这为下一代多模态AI系统的设计提供了重要的技术路径参考。
论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS








