上海交大与阿里AI图像分割新突破:直接生成,告别复杂特征提取

2026-05-14阅读 0热度 0
上海交通大学

2026年3月,上海交通大学人工智能学院与阿里巴巴集团联合发布的研究,为图像分割领域带来了范式级的突破。其提出的GenMask方法,从根本上重构了计算机“理解”并“勾勒”图像目标的路径。相关核心论文已发布于arXiv平台,编号2603.23906v2。

上海交通大学联合阿里巴巴:AI终于学会了直接

传统图像分割方法,如同要求一位新手画家进行精确临摹:必须先行解构原图的色彩、边缘与明暗关系,建立复杂的特征映射,再尝试复现轮廓。这一流程不仅冗长,且特征提取的微小偏差极易导致最终分割结果的失真。

研究团队提出了一个颠覆性的视角:为何不让计算机像成熟的艺术家一样,直接在“画布”上生成分割结果?这旨在摒弃中间繁复的分析与传递链条,实现端到端的生成。其难度在于,彩色图像与二值分割图存在于截然不同的数据域。前者富含连续的色彩与纹理梯度,后者则要求绝对清晰的结构边界。

为量化这一差异,团队设计了一项噪声鲁棒性实验。向两类图像注入不同程度的噪声干扰后发现,即便在高噪声环境下,分割图的轮廓信息依然保持稳定;而彩色图像的细节则迅速模糊。这证实了分割图本身具备更强的结构抗扰性,为直接生成路径提供了关键的数据特性支撑。

基于此洞察,团队设计了一套差异化的训练范式。对于彩色图像生成,模型在中低强度噪声环境中学习,以精细捕捉纹理与色彩过渡。对于分割图生成,则转向高强度噪声环境进行训练,迫使模型剥离无关的纹理细节,专注于学习和固化物体的核心几何结构与空间关系。

在技术实现上,GenMask以扩散变换器(DiT)为骨干网络进行架构优化。为理解“找出戴红帽子的狗”这类自然语言指令,系统集成了视觉语言模型作为语义解析器。同时,在执行分割时注入原始图像的低级视觉特征,为生成过程提供必要的上下文信息。

其训练目标也经过精心设计。摒弃了传统分割中常用的、需转换至像素空间计算的二元交叉熵损失,转而直接在模型的潜在空间中使用均方误差损失。这不仅提升了计算效率,更确保了与生成模型训练目标的一致性,避免了优化冲突。

得益于在高噪声环境下的强化训练,GenMask在推理时通常仅需单次前向传播即可输出高精度分割结果,实现了显著的效率提升。在RefCOCO、RefCOCO+、RefCOCOg等权威指代分割基准测试中,该方法均取得了领先性能,如在RefCOCO测试集上准确率达到83.3%。

深入的消融实验验证了各模块的有效性:差异化的时间步采样策略是性能提升的关键;图像生成与分割任务的联合训练产生了正向的协同效应。此外,GenMask通过多阶段推理流程,也展现了处理“请分割出最高的人”这类需要逻辑判断的推理分割任务的能力。

这项研究的价值是多维的。在应用层面,它为图像编辑、自动驾驶感知、医学影像分析等领域提供了更高效、自然的交互工具。在方法论层面,它验证了统一生成式框架处理判别式任务的巨大潜力,为AI模型设计提供了新范式。当然,当前方法在极端复杂场景下的性能仍有优化空间,将其扩展至视频分割等动态场景亦是未来的重要方向。

更重要的是,这种“直接生成”的路径增强了模型的可解释性。相较于传统黑箱式的复杂流程,我们得以更直观地追溯模型是如何“观察”并“描绘”出目标物体的。GenMask标志着图像分割从“分析-重构”到“直观-生成”的思维转变,其追求本质、化繁为简的思路,对解决更广泛的AI问题具有深刻的启示意义。

Q&A

Q1:GenMask是如何实现直接生成分割结果的?

A:GenMask通过训练一个统一的扩散变换器模型,使其具备在RGB色彩空间中直接输出二值分割图的能力,从而绕过了特征提取、候选区域生成等传统中间步骤。其关键在于采用差异化的训练策略,让模型主要在高噪声条件下学习分割图的生成,强化对物体结构的把握,最终实现高效的单步推理。

Q2:为什么GenMask对分割图采用极端噪声训练策略?

A:这是基于分割图与彩色图像的本质数据特性差异。分割图具有轮廓明确、对噪声干扰不敏感的特性。极端噪声训练作为一种有效的正则化手段,能迫使模型忽略无关的纹理细节,专注于学习并提取目标的几何结构与空间位置等鲁棒性特征,从而提升生成结果的准确性与稳定性。

Q3:GenMask在实际应用中有哪些优势?

A:优势主要体现在三方面:一是端到端的高效性,简化了传统多阶段流程,实现一步生成,计算开销更低;二是架构的简洁性与统一性,基于标准生成模型框架,无需复杂的后处理模块,易于部署;三是卓越的性能表现,在多个核心基准测试中达到了领先的准确率,展现了强大的泛化能力。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策