FLUX.1 视觉生成模型

Black Forest Labs

2024 年 8 月，前 Stability AI 核心研究团队——Robin Rombach、Patrick Esser、Andreas Blattmann 等人——创立了 Black Forest Labs。这几位是 Stable Diffusion 系列模型（SD 1.x、2.x、3.x）的原始作者。公司成立之初即获得 Andreessen Horowitz (a16z) 3100 万美元种子轮投资。

Black Forest Labs 的首个产品便是 FLUX.1 系列视觉生成模型。

FLUX.1 概述

FLUX.1 于 2024 年 8 月正式发布，拥有 120 亿参数，采用 Rectified Flow Transformer + MMDiT（Multi-Modal Diffusion Transformer） 架构。其文本编码器使用了 T5-XXL（110 亿参数）与双 CLIP 编码器（ViT-L/14 和 ViT-bigG/14）的组合，在提示词理解和文本渲染方面达到了当时的顶尖水平。

FLUX.1 的训练规模为 8,192 块 H100 GPU，原生输出分辨率为 1024×1024。

三个变体

FLUX.1 面向不同使用场景提供了三个版本：

变体	许可	推理步数	VRAM 需求	用途
FLUX.1 [pro]	闭源，API 调用	—	—	商业使用，最高质量
FLUX.1 [dev]	开放权重，非商用	25–50 步	~24 GB	研究和社区使用
FLUX.1 [schnell]	开放权重，Apache 2.0	1–4 步	~12 GB	快速生成

pro：通过 API 调用，适用于需要最高质量的商业场景。
dev：开放模型权重，仅限非商业用途。输出质量与 pro 版本接近，但推理速度较慢（25–50 步），需要约 24 GB VRAM。
schnell：完全开源（Apache 2.0 许可），仅需 1–4 步即可生成可用图像，VRAM 需求约 12 GB，适合消费级显卡。

与 Stable Diffusion 对比

FLUX.1 相比同期的 Stable Diffusion 模型（SDXL、SD3）在多个维度有明显提升：

文本渲染：FLUX.1 在图像中生成清晰英文文本的能力大幅领先，是开源模型中文本渲染的标杆。
提示词遵循：对复杂提示词的理解和还原更精确。
照片真实感：在光影、材质、人物皮肤等细节上更接近真实照片。
解剖结构：手部、面部等容易出现畸形的位置显著改善。

代价是更高的 VRAM 需求和推理延迟。

生态系统

FLUX.1 发布后迅速被主流工具支持：

ComfyUI：提供完整官方支持，包括 LoRA 训练工作流
Kohya’s GUI：支持 FLUX.1 LoRA 训练
平台 API：Replicate、Together AI、fal.ai 均有提供
社区：HuggingFace 和 CivitAI 上有大量微调模型

更新历史

2024 年 8 月：FLUX.1 [pro] / [dev] / [schnell] 初始发布
2024 年 11 月：推出 FLUX.1 Pro Ultra（支持 4K 分辨率）和 FLUX.1.1 Pro（6 倍推理加速，改进的提示词遵循能力）

Black Forest Labs#

FLUX.1 概述#

三个变体#

与 Stable Diffusion 对比#

生态系统#

更新历史#

下载链接#