国产多模态Agent医学分割SOTA:无需改动模型与新增token
这项生物医学视觉推理框架的研究成果,已被CVPR 2026接收。
医学影像专家进行标注时,其工作流并非一次性的“看图即分割”。
他们首先会全局审视图像,识别潜在病灶区域,随后在分割工具上交替点击正负样本点,依据每一步生成的掩膜形态动态调整策略——
这是一个多轮次、观察-思考-行动交织的迭代式推理过程。
反观当前主流的医学多模态大模型,普遍采用“单次前向推理”模式:输入图像,直接输出分割掩膜。
当面对生物医学图像中模糊的病灶边缘、交叠的解剖结构、以及低对比度的语义信息时,这种一步到位的范式往往表现欠佳。
更深层的技术瓶颈在于,为了让MLLM具备分割能力,现有方案通常引入隐式分割标记(如
总结来看,当前范式存在四个核心缺陷:
- 单次推理缺乏纠错机制:初始定位若出现偏差,错误将在后续步骤中持续累积,最终损害分割精度。
- 隐式标记损害模型能力:
等标记的引入引发灾难性遗忘,压制了模型原本的细粒度视觉推理能力。 - 决策过程被动僵化:模型仅能被动执行单次指令,无法像人类专家那样主动观察、反思并调整策略。
- 训练数据存在固有局限:现有数据集仅提供最终掩膜标签,缺乏逐步交互的决策轨迹,难以直接监督模型的多步推理行为。
针对上述挑战,浙江大学蔡钰祥教授、上海人工智能实验室研究员江彦开及其合作者提出了IBISAgent——一个将分割任务重新定义为多步视觉决策过程的智能体化MLLM框架。
技术方案详解
IBISAgent的核心创新可概括为以下三点:
- 将分割建模为多步马尔可夫决策过程(MDP),以交替进行的文本推理与空间点击动作完全取代隐式标记。此举完整保留了MLLM的语言推理能力,同时实现了自主的多轮迭代优化。
- 提出两阶段训练框架。第一阶段通过冷启动监督微调,在自动生成的推理轨迹上建立像素级推理先验;第二阶段引入智能体强化学习,利用细粒度奖励信号驱动模型自主探索更优的决策策略,超越对固定轨迹的简单模仿。
- 构建了包含456K条高质量推理轨迹的冷启动数据集,涵盖标准标注与自我反思纠错两类轨迹,为训练多步视觉推理提供了系统化的数据基础。
具体而言,IBISAgent将整个分割过程建模为一条多步推理轨迹,每一步均由三个核心环节构成闭环:
- 推理(Textual Thinking):模型对当前图像及分割状态进行分析,输出如“当前掩膜右侧覆盖不足,需在肿瘤边缘区域增加正向点击”的自然语言描述。
- 行动(Action):模型输出结构化的空间点击指令,包含三个关键要素:目标类别、点击属性(正/负)、以及归一化的二维图像坐标。模型支持单步输出多个点击指令。
- 观测(Observation):点击指令被送入交互式分割工具MedSAM2,生成更新后的掩膜,并与原图叠加后作为下一步的视觉输入反馈给模型。
这一设计的关键在于:模型在每一步都能“看到”上一步操作产生的分割结果,从而形成视觉感知与语言推理的紧密闭环。整个流程无需引入任何新的模型组件或隐式标记,分割能力完全从MLLM内在的视觉推理中涌现,并天然支持从零开始的分割与现有掩膜的精化两类任务。
在训练策略上,IBISAgent采用了两阶段方案:
第一阶段:冷启动监督微调。
针对生物医学分割数据集缺乏逐步轨迹的问题,研究团队基于BiomedParseData(包含340万图像-掩膜对,覆盖9种成像模态)开发了自动轨迹生成算法:通过规则化的点击模拟策略推导出点击序列,再利用Gemini-2.5-Pro为每一步生成对应的自然语言推理。
为提升模型鲁棒性,额外合成了两类自我反思轨迹:一是错误自纠正轨迹,即检测到错误动作后回溯并重新推理;二是指令不一致纠正轨迹,即当指令与初始掩膜矛盾时主动丢弃并重新分割。最终构建出包含456K样本的高质量冷启动数据集用于SFT训练。
第二阶段:智能体强化学习。
在SFT之后,模型仍局限于模仿已有轨迹。为此,团队进一步引入强化学习,设计了一套细粒度奖励框架,为每一步交互提供密集反馈:
其中,区域点击奖励与渐进式分割改进奖励是核心创新——前者引导模型将每次点击落在语义有效的图像区域,后者强制要求每一步行动都必须带来实质性的分割质量提升,从而有效杜绝冗余操作与结果震荡。RL训练采用GRPO算法,在888K视觉问答样本上进行优化。
实验结果与分析
实验评估在三个基准上进行:域内测试集、域外泛化集(MeCOVQA-G+,涵盖5种成像模态)以及自建私有数据集(包含1K CT/MRI/病理图像,涉及7类癌症)。结果显示,IBISAgent在所有基准上均显著领先于所有对比方法。
与医学专用MLLM基线相比,IBISAgent在平均IoU指标上提升35.13%,DSC提升37.58%,F1分数提升29.79%。
值得注意的是,对比方法Citrus-V和UniBiomed均在比本工作更大规模的数据集上进行了训练,而IBISAgent仍能实现一致性的性能超越,这证明其优势源于方法学设计本身,而非数据规模。
与工具增强型智能体的对比
相较于同样调用MedSAM2作为工具的工具增强型智能体(如GPT-4o、LLaVA-Med、HuatuoGPT-Vision等),IBISAgent在域外数据集和私有数据集上依然保持显著领先优势。这充分证明,其多轮交互式推理机制带来的性能增益,远超简单的工具调用范式。
两阶段训练消融研究
消融实验证实,冷启动SFT、自我反思轨迹和强化学习三个组件缺一不可,逐级叠加均带来明显的性能收益。其中,RL阶段贡献了最大的性能跃升,这表明强化学习的探索-利用机制对于激发真正自主的像素级推理能力至关重要。
细粒度奖励设计消融研究
研究团队同样对RL阶段的奖励设计进行了逐项验证。
以仅使用格式奖励与答案奖励作为基线,在域外集MeCOVQA-G+上的IoU仅为73.77;引入区域点击奖励后,IoU提升至76.60,模型对掩膜的定位准确性得到显著改善;进一步加入渐进式分割改进奖励后,IoU跃升至80.61,同时平均交互步数从11.29步压缩至8.12步,表明模型学会了更高效的分割路径;最终叠加轨迹长度奖励后,交互效率继续提升,步数降至4.26步,同时分割质量维持在最高水平。
这一结果证明,细粒度的逐步反馈信号是驱动模型在分割质量与操作效率之间取得最优平衡的关键,仅依赖最终结果的稀疏奖励无法达到同等效果。
总结
本研究将生物医学图像分割从“单次推理输出”范式,推进到了“自主多轮交互决策”的新阶段。
针对现有方法因依赖隐式标记而导致推理能力退化的问题,IBISAgent以交错的文本推理与显式点击动作完全替代了
进一步,通过冷启动SFT结合自动轨迹生成建立了稳健的推理先验,并利用智能体强化学习与细粒度奖励机制驱动模型超越模仿学习,探索最优决策策略,最终实现了细粒度的视觉推理能力。
广泛的实验验证了IBISAgent在多模态、多疾病场景下的一致优势,为未来面向真实临床环境的智能医学图像分析系统奠定了重要的方法论基础。
论文链接:
https://arxiv.org/abs/2601.03054
代码链接:
https://github.com/Yankai96/IBISAgent