上海交大与阿里AI图像分割新突破：直接生成，告别复杂特征提取

2026-05-14阅读 0热度 0

上海交通大学

2026年3月，上海交通大学人工智能学院与阿里巴巴集团联合发布的研究，为图像分割领域带来了范式级的突破。其提出的GenMask方法，从根本上重构了计算机“理解”并“勾勒”图像目标的路径。相关核心论文已发布于arXiv平台，编号2603.23906v2。

传统图像分割方法，如同要求一位新手画家进行精确临摹：必须先行解构原图的色彩、边缘与明暗关系，建立复杂的特征映射，再尝试复现轮廓。这一流程不仅冗长，且特征提取的微小偏差极易导致最终分割结果的失真。

研究团队提出了一个颠覆性的视角：为何不让计算机像成熟的艺术家一样，直接在“画布”上生成分割结果？这旨在摒弃中间繁复的分析与传递链条，实现端到端的生成。其难度在于，彩色图像与二值分割图存在于截然不同的数据域。前者富含连续的色彩与纹理梯度，后者则要求绝对清晰的结构边界。

为量化这一差异，团队设计了一项噪声鲁棒性实验。向两类图像注入不同程度的噪声干扰后发现，即便在高噪声环境下，分割图的轮廓信息依然保持稳定；而彩色图像的细节则迅速模糊。这证实了分割图本身具备更强的结构抗扰性，为直接生成路径提供了关键的数据特性支撑。

基于此洞察，团队设计了一套差异化的训练范式。对于彩色图像生成，模型在中低强度噪声环境中学习，以精细捕捉纹理与色彩过渡。对于分割图生成，则转向高强度噪声环境进行训练，迫使模型剥离无关的纹理细节，专注于学习和固化物体的核心几何结构与空间关系。

在技术实现上，GenMask以扩散变换器（DiT）为骨干网络进行架构优化。为理解“找出戴红帽子的狗”这类自然语言指令，系统集成了视觉语言模型作为语义解析器。同时，在执行分割时注入原始图像的低级视觉特征，为生成过程提供必要的上下文信息。

其训练目标也经过精心设计。摒弃了传统分割中常用的、需转换至像素空间计算的二元交叉熵损失，转而直接在模型的潜在空间中使用均方误差损失。这不仅提升了计算效率，更确保了与生成模型训练目标的一致性，避免了优化冲突。

得益于在高噪声环境下的强化训练，GenMask在推理时通常仅需单次前向传播即可输出高精度分割结果，实现了显著的效率提升。在RefCOCO、RefCOCO+、RefCOCOg等权威指代分割基准测试中，该方法均取得了领先性能，如在RefCOCO测试集上准确率达到83.3%。

深入的消融实验验证了各模块的有效性：差异化的时间步采样策略是性能提升的关键；图像生成与分割任务的联合训练产生了正向的协同效应。此外，GenMask通过多阶段推理流程，也展现了处理“请分割出最高的人”这类需要逻辑判断的推理分割任务的能力。

这项研究的价值是多维的。在应用层面，它为图像编辑、自动驾驶感知、医学影像分析等领域提供了更高效、自然的交互工具。在方法论层面，它验证了统一生成式框架处理判别式任务的巨大潜力，为AI模型设计提供了新范式。当然，当前方法在极端复杂场景下的性能仍有优化空间，将其扩展至视频分割等动态场景亦是未来的重要方向。

更重要的是，这种“直接生成”的路径增强了模型的可解释性。相较于传统黑箱式的复杂流程，我们得以更直观地追溯模型是如何“观察”并“描绘”出目标物体的。GenMask标志着图像分割从“分析-重构”到“直观-生成”的思维转变，其追求本质、化繁为简的思路，对解决更广泛的AI问题具有深刻的启示意义。

Q&A

Q1：GenMask是如何实现直接生成分割结果的？

A：GenMask通过训练一个统一的扩散变换器模型，使其具备在RGB色彩空间中直接输出二值分割图的能力，从而绕过了特征提取、候选区域生成等传统中间步骤。其关键在于采用差异化的训练策略，让模型主要在高噪声条件下学习分割图的生成，强化对物体结构的把握，最终实现高效的单步推理。

Q2：为什么GenMask对分割图采用极端噪声训练策略？

A：这是基于分割图与彩色图像的本质数据特性差异。分割图具有轮廓明确、对噪声干扰不敏感的特性。极端噪声训练作为一种有效的正则化手段，能迫使模型忽略无关的纹理细节，专注于学习并提取目标的几何结构与空间位置等鲁棒性特征，从而提升生成结果的准确性与稳定性。

Q3：GenMask在实际应用中有哪些优势？

A：优势主要体现在三方面：一是端到端的高效性，简化了传统多阶段流程，实现一步生成，计算开销更低；二是架构的简洁性与统一性，基于标准生成模型框架，无需复杂的后处理模块，易于部署；三是卓越的性能表现，在多个核心基准测试中达到了领先的准确率，展现了强大的泛化能力。

上海交大与阿里AI图像分割新突破：直接生成，告别复杂特征提取

Q&A

相关阅读

最新教程

最新资讯