AI图片分层技术新突破:Stability AI模型自学拆解

2026-06-11阅读 0热度 0
ai

试想这个情形:你手机相册里的一张照片,对你而言不过是蓝天、白云、人物与背景的天然融合。但在专业图像处理流程中,这张图必须被“拆解”——人物独立一层,背景另一层。这种“拆解”的专业术语叫“图像层分解”,听起来直截了当,但对AI来说却像一道永远解不开的谜题,因为“如何拆分”本身充满主观性与不确定性。

Stability AI的研究团队这次瞄准的正是这块硬骨头。他们推出了名为 Stable-Layers 的训练框架,核心思路极富巧思:无需人工标注“标准答案”,而是引入一个能理解图像的大模型作为“评审”。让候选的分层方案互相竞争,评审负责打分,模型则根据分数持续迭代优化。最终效果相当显著——层与层之间的内容更加干净,令人头疼的空白层和损坏层大幅减少,背景修复不再是“修补”而是“自然补全”。

一、为什么“分层”对AI而言如此棘手?

要理解这项研究的价值,得先感受一下问题的难度。不妨把“图像层分解”想象成一道拆拼图题。原图是完整的,现在要拆回若干组。听起来简单,但关键难点在于:同一张拼图,存在无数种同样合理的拆法。 一棵树及其下方的阴影,应该算一层还是两层?前景人物和身后的栏杆,该不该分开?

对人来说,答案取决于后续目标。正因如此,过去的训练方法大多依赖人工合成的“配对数据”——人为制作好原图和各个层的完美样本,让AI死记硬背。问题在于,当某张照片存在多种同样合理的分层方式时,强制AI去拟合某一个固定答案,反而会惩罚那些同样正确的其他方案。

Stability AI团队跳出了这个思维定式:与其给AI一个固定答案让它背,不如让它先生成多种可能,再找一个“懂行的评审”来评判哪个更好。这个评审就是视觉语言模型(VLM),一种既能“看”图又能“读”文本的大模型。

二、如何让评审打出有区分度的分数?

我们把训练过程想象成一个绘画选拔赛。分层模型是选手,每次对同一张照片画出多幅“分层作品”。VLM就是考官,负责给每幅作品打分。

然而,直接用VLM打分,团队很快遇到了麻烦:考官单独看每幅作品时,给出的分数往往非常接近。比如同一组四幅作品,分数分别为0.72、0.74、0.71、0.73,差距极小,训练算法完全茫然——这就像老师给四篇作文打了89、90、89、90分,根本不知道哪篇才是真正的优胜者。

这个问题有个专业名称叫“分数压缩”,是整个研究的核心难关之一。为此,团队设计了一套两阶段评分流程。

第一阶段,考官对每幅作品进行结构化的逐项打分,评估五个维度:

  • 语义分离度:前景层是否清晰地包含了一个完整的独立对象。
  • 透明度清洁度:前景边缘是否干净,有没有半透明的“鬼影”残留。
  • 背景修复质量:去除前景后,背景填充区域是否自然合理。
  • 特征分布均匀性:内容是否合理分散在各层,而不是全部堆在一层。
  • 内容有效性:有没有空白层或只包含噪点的无效层。

每个维度0-5分,满分25分,再归一化到0-1之间。

第二阶段才是点睛之笔。系统将同组所有候选的分层结果拼成一张对比网格图,每个候选用数字标签标注,然后再次请考官看图,并告知其第一阶段的分数,要求它进行相对比较,重新给出分数。这就像告诉考官:“这四篇作文第一轮分数都差不多,但请把它们放在一起再看一遍,谁才是真正的赢家?” 结果,原本被压缩在0.71-0.74之间的分数,经过校准后可能变成0.38、0.45、0.82、0.91——差距瞬间拉开,训练算法终于能学到有用的东西了。

三、训练机制:模型如何从“打分”中学习?

整个训练流程是一个循环:生成 → 打分 → 学习。

  • 生成:模型对同一张图片生成若干候选分层结果。
  • 打分:使用上述两阶段VLM评分流程给候选结果打分。
  • 学习:根据组内候选的相对分数差距,计算每个候选的“优势值”,再用这个优势值来更新模型。

这里使用的核心优化算法叫GRPO(组相对策略优化)。它的精妙之处在于,不需要绝对正确的答案,只需要知道在同一组里谁比谁好。分数高于组内平均水平的候选,其生成方式被鼓励;低于平均水平的,则被抑制。就像一个厨师,听食客说“第二道比第一道好,第三道最差”,然后据此调整烹饪方式,即便食客没有给出精确的配方建议。

训练的底座模型是Qwen-Image-Layered,一个能把普通RGB图片分解成多个带透明通道的RGBA图层的流匹配变换器。为了节约算力,团队只对模型的部分层应用了LoRA微调,大部分参数保持冻结。

四、一个额外的工程挑战:稳定强化学习

将强化学习应用到图像生成模型,历来面临一个稳定性难题。GRPO算法的稳定依赖一个叫“重要性比率”的量,但Qwen-Image-Layered模型的结构特殊——它将多个RGBA图层打包成一个超长的潜在向量序列,序列长度远超普通单图模型。对极高维度序列取平均值,会让每一步的对数概率值被稀释得趋近于零,导致比率信号消失,训练无法进行。

团队针对这个问题做了一个聪明的数学调整:把对空间维度取平均值改为先求和,再除以维度数的平方根。 这个看似简单的改动,让比率的量级恢复到正常范围,同时保留了稳定性优势。这对于未来想将强化学习应用到其他高维生成模型的研究者来说,是一个极具参考价值的实用技巧。

五、效果如何?从数据中找答案

研究团队在两个场景中验证了效果。一个是用Crello数据集做定量比较,另一个是用LAION-Aesthetics图片集追踪训练过程。

在定量评估中,他们使用“每层与最匹配的参考层之间的RGB L1误差”来衡量重建质量。结果显示,在生成2、3、4层时,Stable-Layers的平均误差均低于基础模型,说明整体质量确实提升了。

从追踪的三个指标来看,变化趋势更为直观:

  • “不良层数”(空白层+半透明模糊层)从约1.65个下降到约0.4个,废层问题被大幅消除。
  • “特征分布均匀性”从约0.53上升到约0.73,内容开始合理分散到各层。
  • “背景层修复质量”从约0.38上升到约0.62,背景填充更加自然。

这些变化在训练前100步内最显著,之后趋于平稳,符合GRPO算法的预期行为。

六、与其他方法的对比:不同的设计哲学

研究团队还将Stable-Layers与另一款工具LayerD进行了对比。两者的区别,体现了处理“不确定性”时截然不同的哲学。

LayerD的策略是“保守主义”:它觉得图片难分时,宁可返回一张基本不变的完整图片,也不冒险给出错误的多层分解。因此它在“背景层质量”指标上表现亮眼,但“特征分布均匀性”得分只有可怜的0.06。

Stable-Layers的策略是“积极填充”:不论难易,都尽力把请求的层数全部填满有意义的内容。对于真正需要可编辑分层的设计工作流来说,显然是更实用的选择。

七、两项消融实验揭示的规律

团队还通过两组对照实验,验证了两个关键设计选择的有效性。

第一组实验:比较不同文字提示对训练的影响。结果出乎意料,使用包含详细评分标准的复杂提示,反而导致所有指标变差。团队分析认为,当提示内容与评分标准高度重叠时,模型可能形成混淆,把理想状态的描述误解为输入场景的描述,干扰了学习方向。

第二组实验:比较“用不用第二阶段相对校准”的区别。结果显示,在消除空白层和损坏层方面,两者效果相当。但在背景层质量的精细提升上,加入相对校准的那组优势明显。这验证了团队的核心判断:当明显缺陷被消除后,候选差异变得微妙,绝对打分无法区分好坏,必须依靠相对比较来提供有效训练信号。

八、边界与局限

当然,这套方法并非没有代价。评分用的VLM是商业API服务,带来较高的使用成本,且其判断标准可能随模型版本更新而偏移。评估体系基于自动化指标和视觉检查,没有进行正式的人工研究,指标与实际编辑体验的关联度有待验证。此外,训练阶段只使用了最多5层的分解,而基础模型支持最多20层。

归根结底,Stable-Layers的核心贡献不仅是改进了一个图像分层工具,更是提供了一个更通用的思路:对于那些无法获得“标准答案”的生成任务,可以通过让VLM充当裁判,精心设计评分机制让它打出有区分度的分数,然后用这些相对分数来驱动强化学习,在完全没有人工标注的情况下提升生成质量。这个思路在原则上可以应用于风格迁移、图像补全等一系列任务,任何一个能被VLM评估的条件生成问题,都可能从中受益。正是这种“以评分代替标注”的自我提升路径,让它具有了超越“分层”本身的深远意义。

Q&A

Q1:Stable-Layers训练时为什么不需要人工标注的分层数据?

A:因为它使用视觉语言模型(VLM)作为裁判来评分。模型对同一张图片生成多个候选分层,VLM比较这些候选并给出相对好坏的判断,训练算法从分数差异中学习,全程不依赖人工制作的参考分层答案。

Q2:Stable-Layers的两阶段打分流程解决了什么问题?

A:解决的是“分数压缩”问题。VLM单独给每个候选打分时,分数往往集中在很窄的范围里,训练算法无法区分好坏。第二阶段把所有候选拼成网格图让VLM进行相对比较,强制拉开分数差距,训练才能获得有效信号。

Q3:Stable-Layers和LayerD相比各有什么优缺点?

A:LayerD在背景层像素质量上略高,因为它遇到难以分层的图片时倾向于返回原图不做修改。而Stable-Layers则始终尝试生成请求数量的完整层数,特征分布均匀性远高于LayerD,对需要多个可编辑层的设计工作流更实用。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策