万能分割学习器深度测评:浙江大学领衔的扩散模型图像分割新突破
这项由浙江大学、华南理工大学、南京大学和北京大学联合完成的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604.24575,可供同行查阅与验证。
图像分割技术是计算机视觉的基石,它让机器能够理解像素的归属。从智能手机的实时人像抠图,到医疗影像的病灶自动勾勒,再到自动驾驶系统对道路与障碍物的精准识别,其核心都在于将图像解析为有意义的区域。
然而,该领域长期面临一个根本性挑战:模型的专有化。一个在街景数据上训练有素的模型,面对农业或医学影像时性能往往骤降。开发一个真正通用、能适应开放世界各种场景的“万能”分割器,是业界公认的难题。
针对这一瓶颈,浙江大学等机构的研究团队提出了创新思路。他们洞察到,当前火热的扩散模型(如Stable Diffusion等AI绘画工具的核心)在“学习绘画”的过程中,已经内化了关于视觉世界的深层结构知识。研究团队的核心命题是:能否将这种强大的生成能力,转化为精准的感知能力?由此,DiGSeg系统诞生,其全称“Diffusion Models as a Generalist Segmentation Learner”直指目标——让扩散模型成为通用分割学习器。
一、扩散模型:内蕴视觉知识的生成引擎
理解DiGSeg的关键在于认识扩散模型的工作原理。你可以将其视为一位经过海量训练的“图像修复师”。其训练过程是:对清晰图像逐步添加噪声,直至其变为完全随机的噪点,然后让模型学习逆向的去噪过程,最终恢复原图。这类似于将一幅画作反复覆盖再精准还原,迫使模型掌握图像构成的本质规律。
Stable Diffusion等模型正是在数十亿图像的“破坏与重建”中,构建了关于物体轮廓、纹理关联和语义上下文的庞大知识库。以往,人们主要利用其生成能力。但DiGSeg团队发现,这个“画家”在修复图像的过程中,已经无意识地成为了视觉结构的专家。这些内化的知识,为执行分割任务提供了强大的先验基础。
二、先前方法的局限:注意力机制的精度瓶颈
在DiGSeg之前,已有研究尝试利用扩散模型进行分割,主流方法是提取其内部的注意力图谱。注意力图谱可视化了模型在处理特定文本提示时关注的图像区域,例如,输入“猫”时,猫所在的区域会被高亮。
然而,这种方法效果有限。因为这些注意力图是模型执行生成任务时的副产品,并非为像素级分割设计,存在分辨率低、边界模糊、结果随机等问题,需要复杂的后处理。这好比用斧头做微雕,工具本身并不适配。此外,其泛化能力通常局限于训练见过的类别。
DiGSeg摒弃了这种间接的“窥探”方式,选择了一条更直接的路径:重新训练扩散模型,使其能够明确地输出高质量的分割掩模。
三、DiGSeg架构:将生成先验转化为分割能力
DiGSeg的核心思想是能力迁移。假设一位画家已精通光影与结构,现在要训练他成为测绘员。无需从头学习绘画,只需引导他将已有的视觉理解力,应用于绘制精确的地图边界。DiGSeg正是对预训练的扩散模型进行此类“能力重定向”。
其框架包含三个核心模块:
视觉潜在通路: 利用扩散模型自带的编解码器,将输入图像和分割标注图压缩为高效的潜在表示。为处理单通道的分割标注图,团队采用了一个巧妙的技巧:将其复制为三通道,模拟彩色图像输入。实验证明,这种处理能近乎无损地保留信息,极大提升了处理效率。
CLIP文本条件对齐模块: 集成CLIP模型的文本理解能力,为分割过程提供语义引导。当用户输入“分割出道路”的指令时,系统能准确理解“道路”的语义概念,从而在图像中定位对应区域。这使DiGSeg天然支持开放词汇分割,无需预先定义固定类别。
微调的去噪U-Net: 这是系统的“发动机”。团队对扩散模型的核心——U-Net网络进行了针对性微调。训练时,向分割标注的潜在表示中添加噪声,然后让U-Net在图像和文本信息的双重条件下,学习如何一步步去噪,还原出准确的分割图。训练目标直接指向分割精度,而非图像逼真度。关键的是,团队冻结了模型绝大部分预训练参数,仅微调了交叉注意力层等少量模块,从而最大程度保留了模型从海量图像中学到的通用视觉知识。
四、推理流程:从噪声到掩模的确定性生成
实际应用时,系统工作流程如下:输入待分割图像,编码为潜在表示,并初始化一个随机噪声。随后,在图像和文本条件的引导下,微调后的U-Net逐步将噪声“雕刻”成目标分割掩模的潜在表示,最后解码输出像素级结果。
团队优化了推理效率。他们采用“尾随时间步”策略,对齐了训练与推理的噪声调度,使得仅需1-2步去噪就能获得优异结果,这对通常需要数十步的扩散模型而言是巨大提升。
为提高稳定性,系统引入了“测试时集成”技术:用不同噪声种子进行多次推理,然后在潜在空间对结果取平均。这类似于多位专家独立评判后综合意见,能有效平滑单次推理的随机性。实验表明,集成8次效果显著,超过10次后收益递减。
对于开放词汇任务,系统会先利用CLIP扫描预设词表,筛选出与图像最相关的候选类别。图像会被分块评分以避免遗漏小目标。确定候选类别后,系统为每个类别独立执行分割推理,生成概率图,最终为每个像素分配概率最高的类别。
五、阈值策略:平衡精度与召回的统一参数
系统输出的是0到1之间的概率值,需通过阈值τ进行二值化。研究发现,不同类别的最佳阈值存在差异。例如,“牛”这类大目标在较高阈值(约0.76)时表现最佳,而“瓶子”等细长物体则在较低阈值(约0.66)时效果更好。
为保持系统简洁通用,团队并未为每个类别单独调参,而是选择了一个综合表现最优的固定值:τ=0.7。在语义分割、开放词汇分割等多种任务中,这一统一阈值均展现了稳定的高性能。
六、噪声工程:多分辨率退火噪声提升边界质量
训练中注入的噪声设计至关重要。团队提出了“多分辨率退火噪声”策略,取代了标准的均匀高斯噪声。
该策略混合了不同尺度的噪声:高频噪声迫使模型关注精细的物体边界,低频噪声则帮助模型把握整体的语义区域。“退火”意味着在去噪过程的不同阶段,两种噪声的比例动态变化:初期高频主导以学习细节,后期低频增加以巩固结构。这种动态调配使训练更稳定,产出的分割边界更平滑、准确。
消融实验证实了其价值。在COCO和ADE20K数据集上,使用标准噪声的mIoU为48.9和56.7;加入退火噪声后升至49.2和57.1;加入多分辨率噪声后达49.7和57.6;两者结合则取得了最佳成绩50.8和58.6。
七、性能评估:通用性与专业性测试
研究在多个权威数据集上对DiGSeg进行了全面评测。
开放词汇分割: 在A-847, PC-459等多个基准测试中,DiGSeg均超越了此前最优方法,领先幅度最高达2.8个百分点。值得注意的是,许多对比方法针对特定测试集进行了优化,而DiGSeg仅使用同一套通用配置。
闭集语义分割: 在COCO和ADE20K数据集上,DiGSeg分别取得了50.8和58.6的mIoU,刷新了最佳记录。
跨领域泛化: 在未做任何领域适配的情况下,DiGSeg在遥感道路提取(DeepGlobe)和农业图像分割(Phenobench)任务上,均显著超越了为该领域专门设计的模型,证明了其强大的通用性。
局限性: 在医学图像分割(REFUGE-2眼底数据集)任务上,DiGSeg表现不佳(IoU 34.5),远低于专用医学模型。团队指出,核心原因是CLIP的训练数据中缺乏医学影像,导致系统无法建立专业医学概念的图文对齐。这是当前方法需要突破的局限。
八、数据效率:小样本学习能力突出
团队测试了DiGSeg在数据稀缺下的表现。在ADE20K数据集上,仅使用1/2甚至1/4的训练数据时,模型性能下降非常轻微。这证明,扩散模型通过预训练获得的视觉先验知识是有效的,只需少量任务特定的标注数据,就能快速激活并迁移到分割任务上。这对于标注成本高昂的领域具有重要实用价值。
九、速度与精度的权衡
基于扩散模型的特性,DiGSeg的速度无法与传统前向传播模型相比。团队提供了透明数据:
最快配置(单次推理,单步去噪)下,速度约11.27 FPS,在COCO/ADE20K上的mIoU为48.2/56.8。常用平衡配置(8次集成,每次2步)下,速度降至3.15 FPS,mIoU提升至50.8/58.6。追求极致精度(20次集成,每次50步)的配置速度仅0.12 FPS,性能提升却微乎其微。
对于批量处理任务(如遥感、医学影像分析),当前速度已具实用性。未来结合知识蒸馏等加速技术,其效率有望进一步提升。
十、数据相关性启示:质量重于数量
一项有趣的跨领域实验揭示了数据选择的关键。团队分别使用COCO、ADE20K及两者混合数据训练模型,并在驾驶场景数据集上测试。
结果发现,仅使用ADE20K数据训练的模型泛化性能最好。原因是ADE20K包含了更丰富、细粒度的室外场景标注,与驾驶领域相关性更高。混合COCO数据反而因标注风格差异引入了干扰。这明确指出:对于迁移学习,数据与目标领域的相关性比数据量更重要。
总结与展望
DiGSeg研究的核心价值在于,它打破了“生成模型”与“理解模型”之间的传统壁垒。研究表明,扩散模型在学会生成图像的同时,已经深度掌握了视觉世界的结构语义,这种知识可以直接赋能于分割等感知任务。
其意义不仅在于多项指标领先,更在于指明了一条高效的技术路径:未来或许无需为每个视觉任务从头收集海量标注数据、设计专用网络。相反,可以基于已具备通用视觉知识的生成大模型,以较低成本将其能力快速迁移到各类下游任务。这对数据稀缺的专业领域尤为重要。
当然,DiGSeg也揭示了当前挑战:在专业领域(如医学)的表现受限于基础图文对齐模型;其推理速度仍有提升空间;概率生成特性带来的随机性需在确定性要求高的场景中妥善处理。
Q&A
Q1:DiGSeg和传统图像分割模型有何本质区别?
A:传统模型是为分割任务从头训练的专用模型,类别固定,泛化能力受限。DiGSeg则是对海量图像预训练过的生成模型进行改造,它直接利用了模型内化的通用视觉知识。这带来两大优势:一是对任务标注数据的需求量小,二是能通过自然语言指令分割任意类别,突破了固定类别列表的限制。
Q2:DiGSeg在医学图像上效果欠佳的主要原因是什么?
A:主要瓶颈在于其语义对齐依赖CLIP模型,而CLIP的训练数据中医学影像极少。因此,系统无法有效理解“视盘”、“病灶”等专业医学概念的文本描述与图像区域的对应关系。专门在医学数据上训练的传统模型在这方面具有先天优势。
Q3:DiGSeg的速度能否满足实时应用需求?
A:在最快的单步推理配置下,其速度(约11 FPS)可满足部分非严格实时的批量处理需求,如离线影像分析。但在需要高精度(使用集成)或极高帧率(如自动驾驶)的实时场景中,当前速度仍有不足。不过,扩散模型加速是活跃的研究方向,未来通过模型压缩与蒸馏等技术,其推理效率有望大幅提升。
