视觉分割准确率提升9%:边看边改新方法详解

2026-05-28阅读 0热度 0
大模型

视觉分割任务的核心挑战,往往不在于生成掩码本身,而在于如何将开放、模糊的语言指令精准地映射到像素空间。当目标描述涉及复杂空间关系、遮挡或常识推理时,依赖单次前向预测的模型极易出错,因为它缺乏一个关键的验证与修正环节。

针对这一瓶颈,复旦大学与上海创智学院的研究团队提出了RSAgent框架。该框架将多模态大模型转化为一个能够调度视觉工具的智能体,通过多轮交互式决策来迭代优化分割结果。这项开创性工作已被ICML 2026接收。

团队指出,现有方法的性能瓶颈可能并非源于分割头的能力上限,而是缺少一个动态的“确认-纠错”机制。RSAgent的核心创新在于将静态的分割预测重构为一个动态的智能体决策过程。

该模型的工作流是观察、推理、调用工具、读取反馈,并基于历史交互结果进行迭代修正,最终输出高可靠性的掩码。

实验数据验证了这一思路的有效性。在需要复杂推理的ReasonSeg测试集上,RSAgent的gIoU指标相比Seg-Zero-7B显著提升了9.0个百分点;在RefCOCOg数据集上,其平均cIoU达到了81.5%。

开放语义分割的核心挑战

当前的多模态大语言模型在图像描述、问答与关系理解上已表现出色。然而,许多实际应用场景——如交互式标注、机器人操作、设计辅助与工业质检——要求模型能将语言理解直接转化为像素级的操作。

真正的难点在于实现从“语义理解”到“精确掩码”的可靠转换。开放世界的分割指令极少是简单的类别名词,例如“图片左侧被人拿起的物体”或“湍急水流中用于保障安全的装备”。前者需要解析空间关系,后者则依赖场景常识与功能推理。

单次前向预测模型面临的根本问题是无法验证自身选择的正确性。其短板并非“无法生成掩码”,而是“缺少对初始判断进行确认与调整的机会”。一旦定位出现偏差,模型便难以自我纠正。

RSAgent正是针对这一痛点设计。其目标不是堆叠更复杂的解码器,而是赋予模型在开放语义任务中“判断-行动-反馈-修正”的闭环能力。

解决方案:赋予MLLM推理与行动能力

RSAgent的巧妙之处在于其角色定位:它不将MLLM直接改造为掩码解码器,而是将其训练为一个能够规划和调用视觉工具的智能体。在每轮交互中,模型接收图像、指令与历史记录,输出结构化的推理步骤与工具调用指令;工具执行后返回如局部视图、候选掩码等反馈;模型据此决定是继续探索、调整提示,还是提交最终结果。

上图展示了RSAgent的总体框架,其核心是多轮交互、工具调用与观察反馈机制,并通过冷启动监督微调与智能体强化学习进行端到端训练。

下图具体说明了框架中各技术模块及其功能:

在数据构建上,RSAgent通过自动化合成与严格筛选来构建高质量训练轨迹。用于冷启动SFT的数据包含约5K条高质量多轮推理轨迹;在RL阶段,则使用了约2K个强化学习示例,并额外引入8K个RefCOCOg训练样本,以引导模型学习回报更高的决策路径。

RSAgent的核心价值在于它将推理、工具使用、反馈与奖励信号整合为一个完整的训练闭环。模型不仅需要理解目标,还必须学会自适应地缩放视图、提供提示、执行分割并判断终止时机。

其单次交互可归纳为一个四步循环:观察、思考、行动、反馈。这一循环使模型摆脱了对单次判断的绝对依赖,建立了逐步验证的机制。这对于处理涉及复杂关系、属性或隐含常识的指令尤为关键。例如,当目标物体较小、被遮挡或需通过动作推断时,RSAgent可先进行粗定位,再查看局部区域,并根据候选掩码的偏差重新指定点或框,从而引入了一个可审查的中间过程。

在训练策略上,冷启动SFT解决了模型“按规范流程工作”的问题,使其掌握工具调用的语法与基本反思流程;而智能体RL则优化“如何做得更好”,通过奖励信号塑造更优的多轮决策。两者结合,确保了RSAgent既能稳定输出结构化动作,也能在复杂样本上学习更高效的探索策略。

实验结果:在ReasonSeg与RefCOCOg上实现性能领先

实验中,团队以Qwen2.5-VL-7B-Instruct作为基础模型,SAM2-large作为分割工具,在RefCOCO系列和ReasonSeg数据集上进行了全面评估。

下图呈现了RSAgent在RES和ReasonSeg基准测试中的领先性能。

具体评测结果如下:

在ReasonSeg测试集上,RSAgent取得了66.5%的gIoU,较Seg-Zero-7B的57.5%提升了9.0个百分点;在RefCOCOg上,平均cIoU达到约81.5%。这些数据表明,对于依赖开放语义推理的分割任务,该框架能更稳健地将语言理解转化为准确的像素级输出。

消融实验进一步揭示了性能增益的来源。未经训练的智能体在ReasonSeg上的cIoU仅为30.1;加入冷启动SFT后提升至55.4;仅使用RL为54.3;而完整的SFT+RL组合则达到57.9。这清晰证明,先规范工具使用,再通过强化学习优化长程决策,是框架成功的关键。

下图是关于最大工具调用轮数的消融实验。结果显示,适度增加交互轮数有助于提升性能,但过长的上下文可能引入冗余并导致不稳定。

奖励函数的设计同样至关重要。实验表明,移除最终奖励、过程奖励或格式奖励均会导致性能下降。其中,去掉最终奖励后,ReasonSeg测试集上的性能从57.9大幅降至48.3,这印证了最终掩码质量仍是核心优化目标。而过程奖励则有效激励模型在中间步骤持续改进,避免无意义的工具调用。

推动视觉大模型迈向可验证的像素级行动

RSAgent的意义超越了基准测试指标的提升。它清晰地展示了一条从“图像理解”迈向“视觉行动”的技术路径:模型能够围绕文本目标,持续观察、调用工具、接收反馈、修正假设,并将最终决策落实到像素层面。

这种能力对构建交互式视觉系统具有广泛的应用价值:

  • 在数据标注领域,可大幅减少人工反复试错的工作量;
  • 在机器人感知中,使模型能在执行操作前重新确认目标区域;
  • 在设计编辑与内容生成中,将自然语言指令转化为稳定、可编辑的区域选区;
  • 在科学图像分析中,提供可追溯、可复核的中间推理过程。

从更宏观的视角看,RSAgent成功地将开放语义理解、工具调用与像素级执行连接起来。它表明,多模态大模型不必局限于“回答关于图像的问题”,而能够在视觉空间中主动探索、试错与修正。这一方向将视觉智能体推向更贴近真实任务需求的形态。

简而言之,RSAgent验证了多模态大模型可以从“融合文本与图像信息”进一步演进为“在像素空间中进行推理、行动与自我修正”。

这项工作的作者团队来自复旦大学、上海创智学院、上海交通大学等单位。论文共同第一作者为何星旗与张钰杰。何星旗为复旦大学一年级硕士生,研究方向为视觉语言模型推理与强化学习;张钰杰为上海创智学院与复旦大学联合培养博士生,主要研究方向为视觉语言模型推理、强化学习与大语言模型。

论文地址:https://arxiv.org/abs/2512.24023

项目代码:https://github.com/Nicola777-ai/RSAgent

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策