阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
阶跃 Step Image Edit 2 上线!小身材、大能力、快响应
今天,阶跃星辰正式发布了新一代图像生成与编辑模型——Step Image Edit 2。
这款模型主打什么?简单概括就是:极速响应、高质量输出。别看它身材轻巧,能力却相当能打,响应速度更是快得惊人!其参数量仅为3.5B,但在实际表现中,已经实现了对12B-20B级别的开源图像编辑大模型的跨量级超越。单次生成图像仅需0.5到2秒,几乎是“秒出”效果。
模型核心提供图像生成与图像编辑两大能力,全面支持中英文渲染、局部编辑、视觉推理、主体一致性保持以及风格迁移等功能。这意味着,从IP角色创作、商业海报设计、漫画生成,到人像美颜、旅游照片修饰、个人写真生成等实际应用场景,它都能轻松覆盖。
市场表现如何?在公开的学术评测榜单KRIS-Bench上,它已经拿下了轻量级图像编辑模型综合排名的第一位。
发布这款模型,目标很明确:重新定义轻量级图像编辑模型的能力边界。最终目的,是让高质量的图像编辑技术变得更好用、更随时可用,并且让更多人用得起。
目前,Step Image Edit 2已经全量上线「阶跃星辰开放平台」和Step Plan。有个好消息是,从4月29日到5月5日,模型将开启限时免费体验。感兴趣的话,不妨亲自去试试它的身手。
- 阶跃星辰开放平台:https://platform.stepfun.com/docs/zh/guides/models/step-image-edit-2
- Step Plan:https://platform.stepfun.com/docs/zh/step-plan/integrations/image-api
架构数据双突破
那么问题来了:Step Image Edit 2是如何做到又小、又快、又好的?这背后,离不开以下几项关键的技术创新。
1. 多专家驱动的自演化学习(Multi-Expert Self-Evolution Learning)
这项创新旨在突破轻量化模型的能力天花板。其整体思路可以概括为“分头探索、集中聚合”两个阶段。
首先,团队从基座模型衍生出多个专注于不同细分任务的“专家”分支,让它们各自在复杂且充满噪声的原始数据中进行差异化训练和探索。这样做的好处是,能够高效捕捉到高质量、高多样性的图像编辑轨迹。
随后,通过迭代式的自蒸馏技术,将这些细分专家积累的“知识”和“经验”聚合回基座模型。结果是,基座模型在不增加任何参数负担的前提下,获得了远超原有能力上限的编辑效果。这套机制,本质上实现了模型能力与模型体积之间的非线性跨越——用轻量级模型的成本和资源,逼近甚至达到了大型模型的表现水平。
2. 分布匹配强化学习(Distributional Alignment Reinforcement Learning, DARL)
传统强化学习在图像编辑这类复杂任务中,常面临奖励信号稀疏、方差大的难题。Step Image Edit 2引入了一种新思路来解决它。
团队将优化目标重新定义:不再仅仅依赖模型某一次输出的好坏(即单点奖励),而是关注模型当前的整体输出分布,是否与一个高质量的参考分布保持对齐。两者之间的分布差距,成为了新的、更稠密的奖励信号。
简单来说,就是不再“以偏概全”,而是进行“全面体检”。这种方法能有效避免基于少量样本或单一维度评估带来的偏差,使得模型在复杂任务中的训练过程更加平稳,最终获得的泛化能力也更强。
3. 数据质量与规模双重突破
当然,任何强大的模型都离不开高质量数据的喂养。在数据层面,Step Image Edit 2同样下了硬功夫。
为了锤炼图像编辑能力,团队投入了超过五千万规模的专项训练数据。这些数据融合了三大来源:从真实场景中挖掘的数据、定向合成的数据,以及高质量的开源数据。
特别是针对行业内公认的难点——文字编辑与渲染,团队自研了一套排版系统,生成了两千万条专项数据,从而实现了对该能力的精准强化。
在数据质量把控上,团队构建了一个三级质控体系:先由智能体进行自动清洗,再通过大模型进行全局评估,最后辅以人工精细筛选。这套组合拳确保了训练数据在质量和分布上都达到高标准,最终目的只有一个:让模型的生成结果,能最大程度地贴合用户真实的编辑需求和审美。
现在,Step Image Edit 2已经准备就绪。它的表现究竟如何?答案,等你来体验。