Stability AI发布SD3技术报告披露SD3更多细节

2026-05-02阅读 0热度 0

其他

Stability AI发布SD3技术报告披露SD3更多细节

最近，Stability AI放出了他们最强图片生成模型Stable Diffusion 3（SD3）的技术报告，更多核心细节得以公开。根据官方说法，SD3在文字排版质量、图像美学，以及对提示词的理解力上，已经超越了目前所有的开源和商业模型，堪称当前最强的图片生成工具。

那么，这份技术报告究竟透露了哪些关键信息？我们挑几个重点来说说。

首先，根据人类偏好评估的结果，SD3在文字排版准确性和对提示意图的理解程度上，表现均优于DALL·E 3、Midjourney v6和Ideogram v1这些当前的顶尖文本生成图像系统。这无疑是一个强有力的性能声明。

报告的核心亮点，是提出了一种全新的多模态扩散Transformer架构（Multimodal Diffusion Transformer, MMDiT）。这个架构的聪明之处在于，它为图像和语言这两种概念差异巨大的模态，分别使用了独立的权重集来处理。相较于SD3的早期版本，这种设计显著提升了模型对文本的理解能力和生成文字的准确度，信息可以在图像Token和文本Token之间更有效地流动。

对于开发者最关心的硬件门槛，报告也给出了好消息：参数量为80亿的SD3模型，已经可以在单张24G显存的RTX 4090上运行。更重要的是，Stability AI计划发布从8亿到80亿参数不等的多个版本，这无疑大幅降低了在消费级硬件上运行尖端模型的门槛。

在模型基础方面，SD3以扩散Transformer（DiT）为基石。为了优化生成过程，它还采用了矫正流公式。简单来说，这种技术将数据与噪声连接在一条更“直”的路径上，从而带来了更高效的采样过程，意味着可以用更少的步骤生成高质量的图像。

团队还进行了一系列的扩展研究，他们使用重新加权的矫正流公式和MMDiT主干网络，训练了从15个Transformer块（约4.5亿参数）到38个块（约80亿参数）不等的系列模型，验证了架构的可扩展性。

另一个值得注意的优化是灵活的文本编码器。SD3在推理时可以移除参数量高达47亿、内存密集型的T5文本编码器。这一操作能大幅降低模型运行时的内存占用，而性能损失却微乎其微，这对于实际部署来说非常实用。

总而言之，透过这份技术报告，SD3展现出的强大功能与精妙设计细节，清晰地勾勒出它在当前图像生成领域的领先地位。技术的演进，正在不断拓宽创意表达的边界。

感兴趣的朋友可以点击查看报告原文：https://stability.ai/news/stable-diffusion-3-research-paper

Stability AI发布SD3技术报告披露SD3更多细节

Stability AI发布SD3技术报告披露SD3更多细节

相关阅读

最新教程

最新资讯

Stability AI发布SD3技术报告 披露SD3更多细节

相关阅读

最新教程

最新资讯

Stability AI发布SD3技术报告披露SD3更多细节