Stable Diffusion 模型发展史

August 22, 2022 · 2 min · Light Poincare

Stable Diffusion 是由 Stability AI 与学术研究者合作开发的开源文本到图像生成模型系列，自 2022 年首次发布以来经历了多个重大版本升级。

Stable Diffusion 1.x (2022)

2022 年 8 月，Stability AI 发布了 Stable Diffusion 1.4，随后推出 1.5 版本。这是首个面向公众开放的开源文本到图像模型，基于 Latent Diffusion Model 架构，在 LAION-5B 数据集上训练。

参数量：约 9.8 亿（UNet）
架构：Latent Diffusion Model + CLIP 文本编码器
分辨率：512×512
发布方式：开放权重（CreativeML Open RAIL-M 许可）
意义：开启了开源 AI 图像生成时代，引发了社区基于 SD 1.5 的大量微调模型和 LoRA

Stable Diffusion 2.x (2022-2023)

2022 年 11 月，Stability AI 发布了 Stable Diffusion 2.0 和 2.1。主要改进包括：

升级文本编码器为 OpenCLIP（相比 SD 1.5 的 ViT-L/14）
支持 768×768 分辨率
引入 Depth-to-Image 和 Image-to-Image 能力
增加了 Upscaler 模型

但由于训练数据过滤策略变化，部分社区用户认为 SD 2.x 在艺术风格多样性上不如 1.5，导致大量社区仍停留在 SD 1.5 生态。

Stable Diffusion XL (SDXL, 2023)

2023 年 7 月，Stability AI 发布了 SDXL 0.9，随后在 8 月发布 SDXL 1.0。这是一个重大的架构升级：

参数量：约 25.6 亿（两阶段：Base 模型 + Refiner 模型）
架构：改进的 U-Net + 双 CLIP 编码器（OpenCLIP ViT-bigG/14 + CLIP ViT-L/14）
分辨率：1024×1024 原生
关键改进：
- 显著提升照片真实感和细节质量
- 更好的构图和空间理解
- 原生支持多种宽高比
- 引入 Refiner 模型进行精细化降噪

SDXL 在发布时是质量最高的开源文本到图像模型，广泛用于社区创作和专业设计工作流。

Stable Diffusion 3.x (SD3, 2024)

2024 年 2 月，Stability AI 发布了 Stable Diffusion 3 的预览版，6 月正式发布 SD3 Medium。这是架构上的又一次重大变革：

参数量：SD3 Medium 约 20 亿，SD3 Large 约 80 亿
架构：MMDiT（Multi-Modal Diffusion Transformer），从 U-Net 转向 Transformer 架构
文本编码器：T5-XXL + 双 CLIP 编码器
分辨率：1024×1024 原生
关键改进：
- 文本渲染能力大幅提升
- 更精确的提示词遵循
- 更好的解剖结构和手部细节

SD3 引入了 Rectified Flow 训练方法，与传统的噪声预测 (noise prediction) 不同，流匹配方法在推理效率和生成质量之间取得了更好的平衡。

Stable Diffusion 3.5 (2024)

2024 年 10 月，Stability AI 发布了 SD3.5 Large 和 SD3.5 Large Turbo：

SD3.5 Large：约 80 亿参数，最高质量
SD3.5 Large Turbo：经过蒸馏优化，推理步数更少
相比 SD3 的改进：更好的提示词遵循、更丰富的色彩和光影表现

相关工具和生态

LoRA：低秩适配（Low-Rank Adaptation），通过少量训练即可为模型添加特定风格或角色
ControlNet：通过边缘检测、深度图、姿态骨架等条件控制生成结果
ComfyUI / Automatic1111 WebUI：社区主流的图形化推理界面
Kohya’s GUI：LoRA 和 Dreambooth 训练工具

下载链接