阶跃 Step Image Edit 2 上线！小身材、大能力、快响应

2026-04-29阅读 0热度 0

Step

今天，阶跃星辰正式发布了新一代图像生成与编辑模型——Step Image Edit 2。

这款模型主打什么？简单概括就是：极速响应、高质量输出。别看它身材轻巧，能力却相当能打，响应速度更是快得惊人！其参数量仅为3.5B，但在实际表现中，已经实现了对12B-20B级别的开源图像编辑大模型的跨量级超越。单次生成图像仅需0.5到2秒，几乎是“秒出”效果。

模型核心提供图像生成与图像编辑两大能力，全面支持中英文渲染、局部编辑、视觉推理、主体一致性保持以及风格迁移等功能。这意味着，从IP角色创作、商业海报设计、漫画生成，到人像美颜、旅游照片修饰、个人写真生成等实际应用场景，它都能轻松覆盖。

市场表现如何？在公开的学术评测榜单KRIS-Bench上，它已经拿下了轻量级图像编辑模型综合排名的第一位。

发布这款模型，目标很明确：重新定义轻量级图像编辑模型的能力边界。最终目的，是让高质量的图像编辑技术变得更好用、更随时可用，并且让更多人用得起。

目前，Step Image Edit 2已经全量上线「阶跃星辰开放平台」和Step Plan。有个好消息是，从4月29日到5月5日，模型将开启限时免费体验。感兴趣的话，不妨亲自去试试它的身手。

架构数据双突破

那么问题来了：Step Image Edit 2是如何做到又小、又快、又好的？这背后，离不开以下几项关键的技术创新。

这项创新旨在突破轻量化模型的能力天花板。其整体思路可以概括为“分头探索、集中聚合”两个阶段。

首先，团队从基座模型衍生出多个专注于不同细分任务的“专家”分支，让它们各自在复杂且充满噪声的原始数据中进行差异化训练和探索。这样做的好处是，能够高效捕捉到高质量、高多样性的图像编辑轨迹。

随后，通过迭代式的自蒸馏技术，将这些细分专家积累的“知识”和“经验”聚合回基座模型。结果是，基座模型在不增加任何参数负担的前提下，获得了远超原有能力上限的编辑效果。这套机制，本质上实现了模型能力与模型体积之间的非线性跨越——用轻量级模型的成本和资源，逼近甚至达到了大型模型的表现水平。

传统强化学习在图像编辑这类复杂任务中，常面临奖励信号稀疏、方差大的难题。Step Image Edit 2引入了一种新思路来解决它。

团队将优化目标重新定义：不再仅仅依赖模型某一次输出的好坏（即单点奖励），而是关注模型当前的整体输出分布，是否与一个高质量的参考分布保持对齐。两者之间的分布差距，成为了新的、更稠密的奖励信号。

简单来说，就是不再“以偏概全”，而是进行“全面体检”。这种方法能有效避免基于少量样本或单一维度评估带来的偏差，使得模型在复杂任务中的训练过程更加平稳，最终获得的泛化能力也更强。

当然，任何强大的模型都离不开高质量数据的喂养。在数据层面，Step Image Edit 2同样下了硬功夫。

为了锤炼图像编辑能力，团队投入了超过五千万规模的专项训练数据。这些数据融合了三大来源：从真实场景中挖掘的数据、定向合成的数据，以及高质量的开源数据。

特别是针对行业内公认的难点——文字编辑与渲染，团队自研了一套排版系统，生成了两千万条专项数据，从而实现了对该能力的精准强化。

在数据质量把控上，团队构建了一个三级质控体系：先由智能体进行自动清洗，再通过大模型进行全局评估，最后辅以人工精细筛选。这套组合拳确保了训练数据在质量和分布上都达到高标准，最终目的只有一个：让模型的生成结果，能最大程度地贴合用户真实的编辑需求和审美。