Stable Diffusion 是由 Stability AI 与学术研究者合作开发的开源文本到图像生成模型系列,自 2022 年首次发布以来经历了多个重大版本升级。

Stable Diffusion 1.x (2022)

2022 年 8 月,Stability AI 发布了 Stable Diffusion 1.4,随后推出 1.5 版本。这是首个面向公众开放的开源文本到图像模型,基于 Latent Diffusion Model 架构,在 LAION-5B 数据集上训练。

  • 参数量:约 9.8 亿(UNet)
  • 架构:Latent Diffusion Model + CLIP 文本编码器
  • 分辨率:512×512
  • 发布方式:开放权重(CreativeML Open RAIL-M 许可)
  • 意义:开启了开源 AI 图像生成时代,引发了社区基于 SD 1.5 的大量微调模型和 LoRA

Stable Diffusion 2.x (2022-2023)

2022 年 11 月,Stability AI 发布了 Stable Diffusion 2.0 和 2.1。主要改进包括:

  • 升级文本编码器为 OpenCLIP(相比 SD 1.5 的 ViT-L/14)
  • 支持 768×768 分辨率
  • 引入 Depth-to-Image 和 Image-to-Image 能力
  • 增加了 Upscaler 模型

但由于训练数据过滤策略变化,部分社区用户认为 SD 2.x 在艺术风格多样性上不如 1.5,导致大量社区仍停留在 SD 1.5 生态。

Stable Diffusion XL (SDXL, 2023)

2023 年 7 月,Stability AI 发布了 SDXL 0.9,随后在 8 月发布 SDXL 1.0。这是一个重大的架构升级:

  • 参数量:约 25.6 亿(两阶段:Base 模型 + Refiner 模型)
  • 架构:改进的 U-Net + 双 CLIP 编码器(OpenCLIP ViT-bigG/14 + CLIP ViT-L/14)
  • 分辨率:1024×1024 原生
  • 关键改进:
    • 显著提升照片真实感和细节质量
    • 更好的构图和空间理解
    • 原生支持多种宽高比
    • 引入 Refiner 模型进行精细化降噪

SDXL 在发布时是质量最高的开源文本到图像模型,广泛用于社区创作和专业设计工作流。

Stable Diffusion 3.x (SD3, 2024)

2024 年 2 月,Stability AI 发布了 Stable Diffusion 3 的预览版,6 月正式发布 SD3 Medium。这是架构上的又一次重大变革:

  • 参数量:SD3 Medium 约 20 亿,SD3 Large 约 80 亿
  • 架构:MMDiT(Multi-Modal Diffusion Transformer),从 U-Net 转向 Transformer 架构
  • 文本编码器:T5-XXL + 双 CLIP 编码器
  • 分辨率:1024×1024 原生
  • 关键改进:
    • 文本渲染能力大幅提升
    • 更精确的提示词遵循
    • 更好的解剖结构和手部细节

SD3 引入了 Rectified Flow 训练方法,与传统的噪声预测 (noise prediction) 不同,流匹配方法在推理效率和生成质量之间取得了更好的平衡。

Stable Diffusion 3.5 (2024)

2024 年 10 月,Stability AI 发布了 SD3.5 Large 和 SD3.5 Large Turbo:

  • SD3.5 Large:约 80 亿参数,最高质量
  • SD3.5 Large Turbo:经过蒸馏优化,推理步数更少
  • 相比 SD3 的改进:更好的提示词遵循、更丰富的色彩和光影表现

相关工具和生态

  • LoRA:低秩适配(Low-Rank Adaptation),通过少量训练即可为模型添加特定风格或角色
  • ControlNet:通过边缘检测、深度图、姿态骨架等条件控制生成结果
  • ComfyUI / Automatic1111 WebUI:社区主流的图形化推理界面
  • Kohya’s GUI:LoRA 和 Dreambooth 训练工具

下载链接