Stable Diffusion 是由 Stability AI 与学术研究者合作开发的开源文本到图像生成模型系列,自 2022 年首次发布以来经历了多个重大版本升级。
Stable Diffusion 1.x (2022)
2022 年 8 月,Stability AI 发布了 Stable Diffusion 1.4,随后推出 1.5 版本。这是首个面向公众开放的开源文本到图像模型,基于 Latent Diffusion Model 架构,在 LAION-5B 数据集上训练。
- 参数量:约 9.8 亿(UNet)
- 架构:Latent Diffusion Model + CLIP 文本编码器
- 分辨率:512×512
- 发布方式:开放权重(CreativeML Open RAIL-M 许可)
- 意义:开启了开源 AI 图像生成时代,引发了社区基于 SD 1.5 的大量微调模型和 LoRA
Stable Diffusion 2.x (2022-2023)
2022 年 11 月,Stability AI 发布了 Stable Diffusion 2.0 和 2.1。主要改进包括:
- 升级文本编码器为 OpenCLIP(相比 SD 1.5 的 ViT-L/14)
- 支持 768×768 分辨率
- 引入 Depth-to-Image 和 Image-to-Image 能力
- 增加了 Upscaler 模型
但由于训练数据过滤策略变化,部分社区用户认为 SD 2.x 在艺术风格多样性上不如 1.5,导致大量社区仍停留在 SD 1.5 生态。
Stable Diffusion XL (SDXL, 2023)
2023 年 7 月,Stability AI 发布了 SDXL 0.9,随后在 8 月发布 SDXL 1.0。这是一个重大的架构升级:
- 参数量:约 25.6 亿(两阶段:Base 模型 + Refiner 模型)
- 架构:改进的 U-Net + 双 CLIP 编码器(OpenCLIP ViT-bigG/14 + CLIP ViT-L/14)
- 分辨率:1024×1024 原生
- 关键改进:
- 显著提升照片真实感和细节质量
- 更好的构图和空间理解
- 原生支持多种宽高比
- 引入 Refiner 模型进行精细化降噪
SDXL 在发布时是质量最高的开源文本到图像模型,广泛用于社区创作和专业设计工作流。
Stable Diffusion 3.x (SD3, 2024)
2024 年 2 月,Stability AI 发布了 Stable Diffusion 3 的预览版,6 月正式发布 SD3 Medium。这是架构上的又一次重大变革:
- 参数量:SD3 Medium 约 20 亿,SD3 Large 约 80 亿
- 架构:MMDiT(Multi-Modal Diffusion Transformer),从 U-Net 转向 Transformer 架构
- 文本编码器:T5-XXL + 双 CLIP 编码器
- 分辨率:1024×1024 原生
- 关键改进:
- 文本渲染能力大幅提升
- 更精确的提示词遵循
- 更好的解剖结构和手部细节
SD3 引入了 Rectified Flow 训练方法,与传统的噪声预测 (noise prediction) 不同,流匹配方法在推理效率和生成质量之间取得了更好的平衡。
Stable Diffusion 3.5 (2024)
2024 年 10 月,Stability AI 发布了 SD3.5 Large 和 SD3.5 Large Turbo:
- SD3.5 Large:约 80 亿参数,最高质量
- SD3.5 Large Turbo:经过蒸馏优化,推理步数更少
- 相比 SD3 的改进:更好的提示词遵循、更丰富的色彩和光影表现
相关工具和生态
- LoRA:低秩适配(Low-Rank Adaptation),通过少量训练即可为模型添加特定风格或角色
- ControlNet:通过边缘检测、深度图、姿态骨架等条件控制生成结果
- ComfyUI / Automatic1111 WebUI:社区主流的图形化推理界面
- Kohya’s GUI:LoRA 和 Dreambooth 训练工具