Black Forest Labs
2024 年 8 月,前 Stability AI 核心研究团队——Robin Rombach、Patrick Esser、Andreas Blattmann 等人——创立了 Black Forest Labs。这几位是 Stable Diffusion 系列模型(SD 1.x、2.x、3.x)的原始作者。公司成立之初即获得 Andreessen Horowitz (a16z) 3100 万美元种子轮投资。
Black Forest Labs 的首个产品便是 FLUX.1 系列视觉生成模型。
FLUX.1 概述
FLUX.1 于 2024 年 8 月正式发布,拥有 120 亿参数,采用 Rectified Flow Transformer + MMDiT(Multi-Modal Diffusion Transformer) 架构。其文本编码器使用了 T5-XXL(110 亿参数)与双 CLIP 编码器(ViT-L/14 和 ViT-bigG/14)的组合,在提示词理解和文本渲染方面达到了当时的顶尖水平。
FLUX.1 的训练规模为 8,192 块 H100 GPU,原生输出分辨率为 1024×1024。
三个变体
FLUX.1 面向不同使用场景提供了三个版本:
| 变体 | 许可 | 推理步数 | VRAM 需求 | 用途 |
|---|---|---|---|---|
| FLUX.1 [pro] | 闭源,API 调用 | — | — | 商业使用,最高质量 |
| FLUX.1 [dev] | 开放权重,非商用 | 25–50 步 | ~24 GB | 研究和社区使用 |
| FLUX.1 [schnell] | 开放权重,Apache 2.0 | 1–4 步 | ~12 GB | 快速生成 |
- pro:通过 API 调用,适用于需要最高质量的商业场景。
- dev:开放模型权重,仅限非商业用途。输出质量与 pro 版本接近,但推理速度较慢(25–50 步),需要约 24 GB VRAM。
- schnell:完全开源(Apache 2.0 许可),仅需 1–4 步即可生成可用图像,VRAM 需求约 12 GB,适合消费级显卡。
与 Stable Diffusion 对比
FLUX.1 相比同期的 Stable Diffusion 模型(SDXL、SD3)在多个维度有明显提升:
- 文本渲染:FLUX.1 在图像中生成清晰英文文本的能力大幅领先,是开源模型中文本渲染的标杆。
- 提示词遵循:对复杂提示词的理解和还原更精确。
- 照片真实感:在光影、材质、人物皮肤等细节上更接近真实照片。
- 解剖结构:手部、面部等容易出现畸形的位置显著改善。
代价是更高的 VRAM 需求和推理延迟。
生态系统
FLUX.1 发布后迅速被主流工具支持:
- ComfyUI:提供完整官方支持,包括 LoRA 训练工作流
- Kohya’s GUI:支持 FLUX.1 LoRA 训练
- 平台 API:Replicate、Together AI、fal.ai 均有提供
- 社区:HuggingFace 和 CivitAI 上有大量微调模型
更新历史
- 2024 年 8 月:FLUX.1 [pro] / [dev] / [schnell] 初始发布
- 2024 年 11 月:推出 FLUX.1 Pro Ultra(支持 4K 分辨率)和 FLUX.1.1 Pro(6 倍推理加速,改进的提示词遵循能力)