万能分割学习器深度测评：浙江大学领衔的扩散模型图像分割新突破

2026-05-13阅读 0热度 0

浙江大学

这项由浙江大学、华南理工大学、南京大学和北京大学联合完成的研究，于2026年4月以预印本形式发布在arXiv平台，论文编号为arXiv:2604.24575，可供同行查阅与验证。

图像分割技术是计算机视觉的基石，它让机器能够理解像素的归属。从智能手机的实时人像抠图，到医疗影像的病灶自动勾勒，再到自动驾驶系统对道路与障碍物的精准识别，其核心都在于将图像解析为有意义的区域。

然而，该领域长期面临一个根本性挑战：模型的专有化。一个在街景数据上训练有素的模型，面对农业或医学影像时性能往往骤降。开发一个真正通用、能适应开放世界各种场景的“万能”分割器，是业界公认的难题。

针对这一瓶颈，浙江大学等机构的研究团队提出了创新思路。他们洞察到，当前火热的扩散模型（如Stable Diffusion等AI绘画工具的核心）在“学习绘画”的过程中，已经内化了关于视觉世界的深层结构知识。研究团队的核心命题是：能否将这种强大的生成能力，转化为精准的感知能力？由此，DiGSeg系统诞生，其全称“Diffusion Models as a Generalist Segmentation Learner”直指目标——让扩散模型成为通用分割学习器。

一、扩散模型：内蕴视觉知识的生成引擎

理解DiGSeg的关键在于认识扩散模型的工作原理。你可以将其视为一位经过海量训练的“图像修复师”。其训练过程是：对清晰图像逐步添加噪声，直至其变为完全随机的噪点，然后让模型学习逆向的去噪过程，最终恢复原图。这类似于将一幅画作反复覆盖再精准还原，迫使模型掌握图像构成的本质规律。

Stable Diffusion等模型正是在数十亿图像的“破坏与重建”中，构建了关于物体轮廓、纹理关联和语义上下文的庞大知识库。以往，人们主要利用其生成能力。但DiGSeg团队发现，这个“画家”在修复图像的过程中，已经无意识地成为了视觉结构的专家。这些内化的知识，为执行分割任务提供了强大的先验基础。

二、先前方法的局限：注意力机制的精度瓶颈

在DiGSeg之前，已有研究尝试利用扩散模型进行分割，主流方法是提取其内部的注意力图谱。注意力图谱可视化了模型在处理特定文本提示时关注的图像区域，例如，输入“猫”时，猫所在的区域会被高亮。

然而，这种方法效果有限。因为这些注意力图是模型执行生成任务时的副产品，并非为像素级分割设计，存在分辨率低、边界模糊、结果随机等问题，需要复杂的后处理。这好比用斧头做微雕，工具本身并不适配。此外，其泛化能力通常局限于训练见过的类别。

DiGSeg摒弃了这种间接的“窥探”方式，选择了一条更直接的路径：重新训练扩散模型，使其能够明确地输出高质量的分割掩模。

三、DiGSeg架构：将生成先验转化为分割能力

DiGSeg的核心思想是能力迁移。假设一位画家已精通光影与结构，现在要训练他成为测绘员。无需从头学习绘画，只需引导他将已有的视觉理解力，应用于绘制精确的地图边界。DiGSeg正是对预训练的扩散模型进行此类“能力重定向”。

其框架包含三个核心模块：

视觉潜在通路： 利用扩散模型自带的编解码器，将输入图像和分割标注图压缩为高效的潜在表示。为处理单通道的分割标注图，团队采用了一个巧妙的技巧：将其复制为三通道，模拟彩色图像输入。实验证明，这种处理能近乎无损地保留信息，极大提升了处理效率。

CLIP文本条件对齐模块： 集成CLIP模型的文本理解能力，为分割过程提供语义引导。当用户输入“分割出道路”的指令时，系统能准确理解“道路”的语义概念，从而在图像中定位对应区域。这使DiGSeg天然支持开放词汇分割，无需预先定义固定类别。

微调的去噪U-Net： 这是系统的“发动机”。团队对扩散模型的核心——U-Net网络进行了针对性微调。训练时，向分割标注的潜在表示中添加噪声，然后让U-Net在图像和文本信息的双重条件下，学习如何一步步去噪，还原出准确的分割图。训练目标直接指向分割精度，而非图像逼真度。关键的是，团队冻结了模型绝大部分预训练参数，仅微调了交叉注意力层等少量模块，从而最大程度保留了模型从海量图像中学到的通用视觉知识。

四、推理流程：从噪声到掩模的确定性生成

实际应用时，系统工作流程如下：输入待分割图像，编码为潜在表示，并初始化一个随机噪声。随后，在图像和文本条件的引导下，微调后的U-Net逐步将噪声“雕刻”成目标分割掩模的潜在表示，最后解码输出像素级结果。

团队优化了推理效率。他们采用“尾随时间步”策略，对齐了训练与推理的噪声调度，使得仅需1-2步去噪就能获得优异结果，这对通常需要数十步的扩散模型而言是巨大提升。

为提高稳定性，系统引入了“测试时集成”技术：用不同噪声种子进行多次推理，然后在潜在空间对结果取平均。这类似于多位专家独立评判后综合意见，能有效平滑单次推理的随机性。实验表明，集成8次效果显著，超过10次后收益递减。

对于开放词汇任务，系统会先利用CLIP扫描预设词表，筛选出与图像最相关的候选类别。图像会被分块评分以避免遗漏小目标。确定候选类别后，系统为每个类别独立执行分割推理，生成概率图，最终为每个像素分配概率最高的类别。

五、阈值策略：平衡精度与召回的统一参数

系统输出的是0到1之间的概率值，需通过阈值τ进行二值化。研究发现，不同类别的最佳阈值存在差异。例如，“牛”这类大目标在较高阈值（约0.76）时表现最佳，而“瓶子”等细长物体则在较低阈值（约0.66）时效果更好。

为保持系统简洁通用，团队并未为每个类别单独调参，而是选择了一个综合表现最优的固定值：τ=0.7。在语义分割、开放词汇分割等多种任务中，这一统一阈值均展现了稳定的高性能。

六、噪声工程：多分辨率退火噪声提升边界质量

训练中注入的噪声设计至关重要。团队提出了“多分辨率退火噪声”策略，取代了标准的均匀高斯噪声。

该策略混合了不同尺度的噪声：高频噪声迫使模型关注精细的物体边界，低频噪声则帮助模型把握整体的语义区域。“退火”意味着在去噪过程的不同阶段，两种噪声的比例动态变化：初期高频主导以学习细节，后期低频增加以巩固结构。这种动态调配使训练更稳定，产出的分割边界更平滑、准确。

消融实验证实了其价值。在COCO和ADE20K数据集上，使用标准噪声的mIoU为48.9和56.7；加入退火噪声后升至49.2和57.1；加入多分辨率噪声后达49.7和57.6；两者结合则取得了最佳成绩50.8和58.6。

七、性能评估：通用性与专业性测试

研究在多个权威数据集上对DiGSeg进行了全面评测。

开放词汇分割： 在A-847, PC-459等多个基准测试中，DiGSeg均超越了此前最优方法，领先幅度最高达2.8个百分点。值得注意的是，许多对比方法针对特定测试集进行了优化，而DiGSeg仅使用同一套通用配置。

闭集语义分割： 在COCO和ADE20K数据集上，DiGSeg分别取得了50.8和58.6的mIoU，刷新了最佳记录。

跨领域泛化： 在未做任何领域适配的情况下，DiGSeg在遥感道路提取（DeepGlobe）和农业图像分割（Phenobench）任务上，均显著超越了为该领域专门设计的模型，证明了其强大的通用性。

局限性： 在医学图像分割（REFUGE-2眼底数据集）任务上，DiGSeg表现不佳（IoU 34.5），远低于专用医学模型。团队指出，核心原因是CLIP的训练数据中缺乏医学影像，导致系统无法建立专业医学概念的图文对齐。这是当前方法需要突破的局限。

八、数据效率：小样本学习能力突出

团队测试了DiGSeg在数据稀缺下的表现。在ADE20K数据集上，仅使用1/2甚至1/4的训练数据时，模型性能下降非常轻微。这证明，扩散模型通过预训练获得的视觉先验知识是有效的，只需少量任务特定的标注数据，就能快速激活并迁移到分割任务上。这对于标注成本高昂的领域具有重要实用价值。

九、速度与精度的权衡

基于扩散模型的特性，DiGSeg的速度无法与传统前向传播模型相比。团队提供了透明数据：

最快配置（单次推理，单步去噪）下，速度约11.27 FPS，在COCO/ADE20K上的mIoU为48.2/56.8。常用平衡配置（8次集成，每次2步）下，速度降至3.15 FPS，mIoU提升至50.8/58.6。追求极致精度（20次集成，每次50步）的配置速度仅0.12 FPS，性能提升却微乎其微。

对于批量处理任务（如遥感、医学影像分析），当前速度已具实用性。未来结合知识蒸馏等加速技术，其效率有望进一步提升。

十、数据相关性启示：质量重于数量

一项有趣的跨领域实验揭示了数据选择的关键。团队分别使用COCO、ADE20K及两者混合数据训练模型，并在驾驶场景数据集上测试。

结果发现，仅使用ADE20K数据训练的模型泛化性能最好。原因是ADE20K包含了更丰富、细粒度的室外场景标注，与驾驶领域相关性更高。混合COCO数据反而因标注风格差异引入了干扰。这明确指出：对于迁移学习，数据与目标领域的相关性比数据量更重要。

总结与展望

DiGSeg研究的核心价值在于，它打破了“生成模型”与“理解模型”之间的传统壁垒。研究表明，扩散模型在学会生成图像的同时，已经深度掌握了视觉世界的结构语义，这种知识可以直接赋能于分割等感知任务。

其意义不仅在于多项指标领先，更在于指明了一条高效的技术路径：未来或许无需为每个视觉任务从头收集海量标注数据、设计专用网络。相反，可以基于已具备通用视觉知识的生成大模型，以较低成本将其能力快速迁移到各类下游任务。这对数据稀缺的专业领域尤为重要。

当然，DiGSeg也揭示了当前挑战：在专业领域（如医学）的表现受限于基础图文对齐模型；其推理速度仍有提升空间；概率生成特性带来的随机性需在确定性要求高的场景中妥善处理。

Q&A

Q1：DiGSeg和传统图像分割模型有何本质区别？

A：传统模型是为分割任务从头训练的专用模型，类别固定，泛化能力受限。DiGSeg则是对海量图像预训练过的生成模型进行改造，它直接利用了模型内化的通用视觉知识。这带来两大优势：一是对任务标注数据的需求量小，二是能通过自然语言指令分割任意类别，突破了固定类别列表的限制。

Q2：DiGSeg在医学图像上效果欠佳的主要原因是什么？

A：主要瓶颈在于其语义对齐依赖CLIP模型，而CLIP的训练数据中医学影像极少。因此，系统无法有效理解“视盘”、“病灶”等专业医学概念的文本描述与图像区域的对应关系。专门在医学数据上训练的传统模型在这方面具有先天优势。

Q3：DiGSeg的速度能否满足实时应用需求？

A：在最快的单步推理配置下，其速度（约11 FPS）可满足部分非严格实时的批量处理需求，如离线影像分析。但在需要高精度（使用集成）或极高帧率（如自动驾驶）的实时场景中，当前速度仍有不足。不过，扩散模型加速是活跃的研究方向，未来通过模型压缩与蒸馏等技术，其推理效率有望大幅提升。