Stable Diffusion 3.5 Medium开源文生图模型 - 图像质量与资源效率显著提升

首页

Stable Diffusion 3.5 Medium

由 stabilityai 开发

基于改进型多模态扩散变换器(MMDiT-X)的文生图模型，在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升

文本生成图像英语开源协议:其他 #多模态扩散变换器 #高精度文生图 #复杂提示理解

下载量 426.00k

发布时间 : 10/29/2024

模型简介

可根据文本提示生成高质量图像，采用改进型多模态扩散变换器架构，集成三项关键技术：三个固定预训练文本编码器、提升训练稳定性的QK归一化技术，以及前12层变换器中的双重注意力模块

模型特点

改进型多模态扩散变换器

采用MMDiT-X架构，在变换器前13层引入自注意力模块，显著提升多分辨率生成能力和图像整体协调性

QK归一化技术

采用QK归一化技术确保训练过程稳定

混合分辨率训练

渐进式训练阶段从256到1440分辨率，增强多分辨率生成能力

多文本编码器集成

集成CLIP和T5三种文本编码器，支持77/256个token的上下文长度

模型能力

文本到图像生成

复杂提示词理解

高质量图像生成

多分辨率支持

文字排版

使用案例

艺术创作

概念艺术设计

为游戏、电影等创作概念艺术图像

生成具有创意和艺术性的图像

插画创作

为书籍、杂志等创作插画

快速生成符合主题的插画作品

商业设计

广告创意

为广告活动生成创意视觉内容

快速迭代广告创意视觉方案

产品设计

为产品设计提供概念可视化

加速产品设计流程

教育研究

生成模型研究

研究文本到图像生成模型的性能和局限性

为AI研究提供实验平台

🚀 稳定扩散3.5中等模型

稳定扩散3.5中等模型是一款文本到图像的生成模型，在图像质量、排版、复杂提示理解和资源效率方面表现出色，能根据文本提示生成高质量图像。

🚀 快速开始

若要使用此模型，可按以下步骤操作：

升级到最新版本的 🧨 diffusers库：

pip install -U diffusers

运行以下代码：

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

✨ 主要特性

性能提升：稳定扩散3.5中等模型是一款改进的多模态扩散变换器（MMDiT-X）文本到图像模型，在图像质量、排版、复杂提示理解和资源效率方面表现出色。
多文本编码器：使用三个固定的预训练文本编码器，结合QK归一化提高训练稳定性，并在Transformer的前12层采用双注意力块。
多分辨率训练：通过渐进式训练阶段（256 → 512 → 768 → 1024 → 1440分辨率）和混合分辨率训练，提升多分辨率图像生成性能。

📦 安装指南

环境准备

确保已安装Python环境，并安装最新版本的 🧨 diffusers库：

pip install -U diffusers

量化模型（可选）

若要减少VRAM使用，可对模型进行量化：

pip install bitsandbytes

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

高级用法

量化模型

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

微调模型

请参考微调指南。

📚 详细文档

模型描述

属性	详情
开发方	Stability AI
模型类型	MMDiT-X文本到图像生成模型
模型描述	该模型根据文本提示生成图像，是一种改进的多模态扩散变换器（https://arxiv.org/abs/2403.03206），使用三个固定的预训练文本编码器，结合QK归一化提高训练稳定性，并在Transformer的前12层采用双注意力块。

许可证

本模型根据 Stability社区许可证发布。

社区许可证：适用于研究、非商业用途以及年收入低于100万美元的组织或个人。更多详情请访问 Stability AI。
商业许可证：对于年收入超过100万美元的个人或组织，请联系我们获取企业许可证。

模型来源

ComfyUI：Github，示例工作流
Huggingface Space：Space
Diffusers：使用说明
GitHub：GitHub
API端点：Stability AI API

文件结构

点击此处访问文件和版本标签

│
├── text_encoders/  
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
├── SD3.5L_plus_SD3.5M_upscaling_example_workflow.json
└── sd3_medium_demo.jpg

** 以下是diffusers集成的文件结构 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

使用与限制

提示长度：虽然该模型可以处理长提示，但当T5令牌超过256时，生成的图像边缘可能会出现伪影。在工作流程中使用此模型时，请注意令牌限制，若伪影过于明显，请缩短提示。
训练数据分布：中等模型与大型模型的训练数据分布不同，因此对相同提示的响应可能不同。
采样建议：建议使用 跳过层引导 进行采样，以获得更好的结构和解剖学连贯性。

模型性能

有关提示遵循度和美学质量的比较性能研究，请参阅博客。

预期用途

本模型的预期用途包括：

艺术品生成，用于设计和其他艺术创作过程。
教育或创意工具中的应用。
生成模型的研究，包括了解生成模型的局限性。

所有使用本模型的行为必须符合我们的可接受使用政策。

非预期用途

本模型并非用于生成事实性或真实的人物或事件表示。因此，使用该模型生成此类内容超出了其能力范围。

安全措施

作为我们安全设计和负责任AI部署方法的一部分，我们在模型开发的早期阶段就采取了措施确保完整性。我们在模型开发的整个过程中实施了安全措施，以降低某些危害的风险。然而，我们建议开发人员根据其特定用例进行自己的测试并应用额外的缓解措施。有关我们的安全方法的更多信息，请访问我们的安全页面。

完整性评估

我们的完整性评估方法包括结构化评估和针对某些危害的红队测试。测试主要以英语进行，可能无法涵盖所有可能的危害。

识别的风险和缓解措施

有害内容：我们在训练模型时使用了过滤后的数据集，并实施了保障措施，试图在实用性和防止危害之间取得平衡。然而，这并不能保证所有可能的有害内容都已被移除。所有开发人员和部署人员应谨慎行事，并根据其特定产品政策和应用用例实施内容安全护栏。
滥用：技术限制以及开发人员和最终用户的教育可以帮助减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策，包括在应用微调和平提示工程机制时。请参考Stability AI可接受使用政策了解我们产品的违规使用信息。
隐私侵犯：鼓励开发人员和部署人员采用尊重数据隐私的技术，遵守隐私法规。

联系我们

如果您发现模型存在任何问题，请通过以下方式联系我们：

安全问题：safety@stability.ai
安全漏洞：security@stability.ai
隐私问题：privacy@stability.ai
许可证和一般问题：https://stability.ai/license
企业许可证：https://stability.ai/enterprise

🔧 技术细节

模型改进

MMDiT-X：在Transformer的前13层引入自注意力模块，增强多分辨率生成和整体图像连贯性。
QK归一化：实施QK归一化技术，提高训练稳定性。
混合分辨率训练：
- 渐进式训练阶段：256 → 512 → 768 → 1024 → 1440分辨率。
- 最终阶段包括混合尺度图像训练，以提升多分辨率生成性能。
- 在较低分辨率阶段将位置嵌入空间扩展到384x384（潜在）。
- 对位置嵌入应用随机裁剪增强，以提高Transformer层在整个混合分辨率和宽高比范围内的鲁棒性。