AI图片分层技术新突破：Stability AI模型自学拆解

2026-06-11阅读 0热度 0

试想这个情形：你手机相册里的一张照片，对你而言不过是蓝天、白云、人物与背景的天然融合。但在专业图像处理流程中，这张图必须被“拆解”——人物独立一层，背景另一层。这种“拆解”的专业术语叫“图像层分解”，听起来直截了当，但对AI来说却像一道永远解不开的谜题，因为“如何拆分”本身充满主观性与不确定性。

Stability AI的研究团队这次瞄准的正是这块硬骨头。他们推出了名为 Stable-Layers 的训练框架，核心思路极富巧思：无需人工标注“标准答案”，而是引入一个能理解图像的大模型作为“评审”。让候选的分层方案互相竞争，评审负责打分，模型则根据分数持续迭代优化。最终效果相当显著——层与层之间的内容更加干净，令人头疼的空白层和损坏层大幅减少，背景修复不再是“修补”而是“自然补全”。

一、为什么“分层”对AI而言如此棘手？

要理解这项研究的价值，得先感受一下问题的难度。不妨把“图像层分解”想象成一道拆拼图题。原图是完整的，现在要拆回若干组。听起来简单，但关键难点在于：同一张拼图，存在无数种同样合理的拆法。 一棵树及其下方的阴影，应该算一层还是两层？前景人物和身后的栏杆，该不该分开？

对人来说，答案取决于后续目标。正因如此，过去的训练方法大多依赖人工合成的“配对数据”——人为制作好原图和各个层的完美样本，让AI死记硬背。问题在于，当某张照片存在多种同样合理的分层方式时，强制AI去拟合某一个固定答案，反而会惩罚那些同样正确的其他方案。

Stability AI团队跳出了这个思维定式：与其给AI一个固定答案让它背，不如让它先生成多种可能，再找一个“懂行的评审”来评判哪个更好。这个评审就是视觉语言模型（VLM），一种既能“看”图又能“读”文本的大模型。

二、如何让评审打出有区分度的分数？

我们把训练过程想象成一个绘画选拔赛。分层模型是选手，每次对同一张照片画出多幅“分层作品”。VLM就是考官，负责给每幅作品打分。

然而，直接用VLM打分，团队很快遇到了麻烦：考官单独看每幅作品时，给出的分数往往非常接近。比如同一组四幅作品，分数分别为0.72、0.74、0.71、0.73，差距极小，训练算法完全茫然——这就像老师给四篇作文打了89、90、89、90分，根本不知道哪篇才是真正的优胜者。

这个问题有个专业名称叫“分数压缩”，是整个研究的核心难关之一。为此，团队设计了一套两阶段评分流程。

第一阶段，考官对每幅作品进行结构化的逐项打分，评估五个维度：

语义分离度：前景层是否清晰地包含了一个完整的独立对象。
透明度清洁度：前景边缘是否干净，有没有半透明的“鬼影”残留。
背景修复质量：去除前景后，背景填充区域是否自然合理。
特征分布均匀性：内容是否合理分散在各层，而不是全部堆在一层。
内容有效性：有没有空白层或只包含噪点的无效层。

每个维度0-5分，满分25分，再归一化到0-1之间。

第二阶段才是点睛之笔。系统将同组所有候选的分层结果拼成一张对比网格图，每个候选用数字标签标注，然后再次请考官看图，并告知其第一阶段的分数，要求它进行相对比较，重新给出分数。这就像告诉考官：“这四篇作文第一轮分数都差不多，但请把它们放在一起再看一遍，谁才是真正的赢家？” 结果，原本被压缩在0.71-0.74之间的分数，经过校准后可能变成0.38、0.45、0.82、0.91——差距瞬间拉开，训练算法终于能学到有用的东西了。

三、训练机制：模型如何从“打分”中学习？

整个训练流程是一个循环：生成 → 打分 → 学习。

生成：模型对同一张图片生成若干候选分层结果。
打分：使用上述两阶段VLM评分流程给候选结果打分。
学习：根据组内候选的相对分数差距，计算每个候选的“优势值”，再用这个优势值来更新模型。

这里使用的核心优化算法叫GRPO（组相对策略优化）。它的精妙之处在于，不需要绝对正确的答案，只需要知道在同一组里谁比谁好。分数高于组内平均水平的候选，其生成方式被鼓励；低于平均水平的，则被抑制。就像一个厨师，听食客说“第二道比第一道好，第三道最差”，然后据此调整烹饪方式，即便食客没有给出精确的配方建议。

训练的底座模型是Qwen-Image-Layered，一个能把普通RGB图片分解成多个带透明通道的RGBA图层的流匹配变换器。为了节约算力，团队只对模型的部分层应用了LoRA微调，大部分参数保持冻结。

四、一个额外的工程挑战：稳定强化学习

将强化学习应用到图像生成模型，历来面临一个稳定性难题。GRPO算法的稳定依赖一个叫“重要性比率”的量，但Qwen-Image-Layered模型的结构特殊——它将多个RGBA图层打包成一个超长的潜在向量序列，序列长度远超普通单图模型。对极高维度序列取平均值，会让每一步的对数概率值被稀释得趋近于零，导致比率信号消失，训练无法进行。

团队针对这个问题做了一个聪明的数学调整：把对空间维度取平均值改为先求和，再除以维度数的平方根。 这个看似简单的改动，让比率的量级恢复到正常范围，同时保留了稳定性优势。这对于未来想将强化学习应用到其他高维生成模型的研究者来说，是一个极具参考价值的实用技巧。

五、效果如何？从数据中找答案

研究团队在两个场景中验证了效果。一个是用Crello数据集做定量比较，另一个是用LAION-Aesthetics图片集追踪训练过程。

在定量评估中，他们使用“每层与最匹配的参考层之间的RGB L1误差”来衡量重建质量。结果显示，在生成2、3、4层时，Stable-Layers的平均误差均低于基础模型，说明整体质量确实提升了。

从追踪的三个指标来看，变化趋势更为直观：

“不良层数”（空白层+半透明模糊层）从约1.65个下降到约0.4个，废层问题被大幅消除。
“特征分布均匀性”从约0.53上升到约0.73，内容开始合理分散到各层。
“背景层修复质量”从约0.38上升到约0.62，背景填充更加自然。

这些变化在训练前100步内最显著，之后趋于平稳，符合GRPO算法的预期行为。

六、与其他方法的对比：不同的设计哲学

研究团队还将Stable-Layers与另一款工具LayerD进行了对比。两者的区别，体现了处理“不确定性”时截然不同的哲学。

LayerD的策略是“保守主义”：它觉得图片难分时，宁可返回一张基本不变的完整图片，也不冒险给出错误的多层分解。因此它在“背景层质量”指标上表现亮眼，但“特征分布均匀性”得分只有可怜的0.06。

Stable-Layers的策略是“积极填充”：不论难易，都尽力把请求的层数全部填满有意义的内容。对于真正需要可编辑分层的设计工作流来说，显然是更实用的选择。

七、两项消融实验揭示的规律

团队还通过两组对照实验，验证了两个关键设计选择的有效性。

第一组实验：比较不同文字提示对训练的影响。结果出乎意料，使用包含详细评分标准的复杂提示，反而导致所有指标变差。团队分析认为，当提示内容与评分标准高度重叠时，模型可能形成混淆，把理想状态的描述误解为输入场景的描述，干扰了学习方向。

第二组实验：比较“用不用第二阶段相对校准”的区别。结果显示，在消除空白层和损坏层方面，两者效果相当。但在背景层质量的精细提升上，加入相对校准的那组优势明显。这验证了团队的核心判断：当明显缺陷被消除后，候选差异变得微妙，绝对打分无法区分好坏，必须依靠相对比较来提供有效训练信号。

八、边界与局限

当然，这套方法并非没有代价。评分用的VLM是商业API服务，带来较高的使用成本，且其判断标准可能随模型版本更新而偏移。评估体系基于自动化指标和视觉检查，没有进行正式的人工研究，指标与实际编辑体验的关联度有待验证。此外，训练阶段只使用了最多5层的分解，而基础模型支持最多20层。

归根结底，Stable-Layers的核心贡献不仅是改进了一个图像分层工具，更是提供了一个更通用的思路：对于那些无法获得“标准答案”的生成任务，可以通过让VLM充当裁判，精心设计评分机制让它打出有区分度的分数，然后用这些相对分数来驱动强化学习，在完全没有人工标注的情况下提升生成质量。这个思路在原则上可以应用于风格迁移、图像补全等一系列任务，任何一个能被VLM评估的条件生成问题，都可能从中受益。正是这种“以评分代替标注”的自我提升路径，让它具有了超越“分层”本身的深远意义。

Q&A

Q1：Stable-Layers训练时为什么不需要人工标注的分层数据？

A：因为它使用视觉语言模型（VLM）作为裁判来评分。模型对同一张图片生成多个候选分层，VLM比较这些候选并给出相对好坏的判断，训练算法从分数差异中学习，全程不依赖人工制作的参考分层答案。

Q2：Stable-Layers的两阶段打分流程解决了什么问题？

A：解决的是“分数压缩”问题。VLM单独给每个候选打分时，分数往往集中在很窄的范围里，训练算法无法区分好坏。第二阶段把所有候选拼成网格图让VLM进行相对比较，强制拉开分数差距，训练才能获得有效信号。

Q3：Stable-Layers和LayerD相比各有什么优缺点？

A：LayerD在背景层像素质量上略高，因为它遇到难以分层的图片时倾向于返回原图不做修改。而Stable-Layers则始终尝试生成请求数量的完整层数，特征分布均匀性远高于LayerD，对需要多个可编辑层的设计工作流更实用。