Stable Diffusion 3.5 Medium開源文生圖模型 - 圖像質量與資源效率顯著提升

首頁

Stable Diffusion 3.5 Medium

由stabilityai開發

基於改進型多模態擴散變換器(MMDiT-X)的文生圖模型，在圖像質量、文字排版、複雜提示詞理解和資源效率方面均有顯著提升

文本生成圖像英語開源協議:其他 #多模態擴散變換器 #高精度文生圖 #複雜提示理解

下載量 426.00k

發布時間 : 10/29/2024

模型概述

可根據文本提示生成高質量圖像，採用改進型多模態擴散變換器架構，集成三項關鍵技術：三個固定預訓練文本編碼器、提升訓練穩定性的QK歸一化技術，以及前12層變換器中的雙重注意力模塊

模型特點

改進型多模態擴散變換器

採用MMDiT-X架構，在變換器前13層引入自注意力模塊，顯著提升多分辨率生成能力和圖像整體協調性

QK歸一化技術

採用QK歸一化技術確保訓練過程穩定

混合分辨率訓練

漸進式訓練階段從256到1440分辨率，增強多分辨率生成能力

多文本編碼器集成

集成CLIP和T5三種文本編碼器，支持77/256個token的上下文長度

模型能力

文本到圖像生成

複雜提示詞理解

高質量圖像生成

多分辨率支持

文字排版

使用案例

藝術創作

概念藝術設計

為遊戲、電影等創作概念藝術圖像

生成具有創意和藝術性的圖像

插畫創作

為書籍、雜誌等創作插畫

快速生成符合主題的插畫作品

商業設計

廣告創意

為廣告活動生成創意視覺內容

快速迭代廣告創意視覺方案

產品設計

為產品設計提供概念可視化

加速產品設計流程

教育研究

生成模型研究

研究文本到圖像生成模型的性能和侷限性

為AI研究提供實驗平臺

🚀 穩定擴散3.5中等模型

穩定擴散3.5中等模型是一款文本到圖像的生成模型，在圖像質量、排版、複雜提示理解和資源效率方面表現出色，能根據文本提示生成高質量圖像。

🚀 快速開始

若要使用此模型，可按以下步驟操作：

升級到最新版本的 🧨 diffusers庫：

pip install -U diffusers

運行以下代碼：

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

✨ 主要特性

性能提升：穩定擴散3.5中等模型是一款改進的多模態擴散變換器（MMDiT-X）文本到圖像模型，在圖像質量、排版、複雜提示理解和資源效率方面表現出色。
多文本編碼器：使用三個固定的預訓練文本編碼器，結合QK歸一化提高訓練穩定性，並在Transformer的前12層採用雙注意力塊。
多分辨率訓練：通過漸進式訓練階段（256 → 512 → 768 → 1024 → 1440分辨率）和混合分辨率訓練，提升多分辨率圖像生成性能。

📦 安裝指南

環境準備

確保已安裝Python環境，並安裝最新版本的 🧨 diffusers庫：

pip install -U diffusers

量化模型（可選）

若要減少VRAM使用，可對模型進行量化：

pip install bitsandbytes

💻 使用示例

基礎用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

高級用法

量化模型

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

微調模型

請參考微調指南。

📚 詳細文檔

模型描述

屬性	詳情
開發方	Stability AI
模型類型	MMDiT-X文本到圖像生成模型
模型描述	該模型根據文本提示生成圖像，是一種改進的多模態擴散變換器（https://arxiv.org/abs/2403.03206），使用三個固定的預訓練文本編碼器，結合QK歸一化提高訓練穩定性，並在Transformer的前12層採用雙注意力塊。

許可證

本模型根據 Stability社區許可證發佈。

社區許可證：適用於研究、非商業用途以及年收入低於100萬美元的組織或個人。更多詳情請訪問 Stability AI。
商業許可證：對於年收入超過100萬美元的個人或組織，請聯繫我們獲取企業許可證。

模型來源

ComfyUI：Github，示例工作流
Huggingface Space：Space
Diffusers：使用說明
GitHub：GitHub
API端點：Stability AI API

文件結構

點擊此處訪問文件和版本標籤

│
├── text_encoders/  
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
├── SD3.5L_plus_SD3.5M_upscaling_example_workflow.json
└── sd3_medium_demo.jpg

** 以下是diffusers集成的文件結構 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

使用與限制

提示長度：雖然該模型可以處理長提示，但當T5令牌超過256時，生成的圖像邊緣可能會出現偽影。在工作流程中使用此模型時，請注意令牌限制，若偽影過於明顯，請縮短提示。
訓練數據分佈：中等模型與大型模型的訓練數據分佈不同，因此對相同提示的響應可能不同。
採樣建議：建議使用 跳過層引導 進行採樣，以獲得更好的結構和解剖學連貫性。

模型性能

有關提示遵循度和美學質量的比較性能研究，請參閱博客。

預期用途

本模型的預期用途包括：

藝術品生成，用於設計和其他藝術創作過程。
教育或創意工具中的應用。
生成模型的研究，包括瞭解生成模型的侷限性。

所有使用本模型的行為必須符合我們的可接受使用政策。

非預期用途

本模型並非用於生成事實性或真實的人物或事件表示。因此，使用該模型生成此類內容超出了其能力範圍。

安全措施

作為我們安全設計和負責任AI部署方法的一部分，我們在模型開發的早期階段就採取了措施確保完整性。我們在模型開發的整個過程中實施了安全措施，以降低某些危害的風險。然而，我們建議開發人員根據其特定用例進行自己的測試並應用額外的緩解措施。有關我們的安全方法的更多信息，請訪問我們的安全頁面。

完整性評估

我們的完整性評估方法包括結構化評估和針對某些危害的紅隊測試。測試主要以英語進行，可能無法涵蓋所有可能的危害。

識別的風險和緩解措施

有害內容：我們在訓練模型時使用了過濾後的數據集，並實施了保障措施，試圖在實用性和防止危害之間取得平衡。然而，這並不能保證所有可能的有害內容都已被移除。所有開發人員和部署人員應謹慎行事，並根據其特定產品政策和應用用例實施內容安全護欄。
濫用：技術限制以及開發人員和最終用戶的教育可以幫助減輕模型的惡意應用。所有用戶都必須遵守我們的可接受使用政策，包括在應用微調和平提示工程機制時。請參考Stability AI可接受使用政策瞭解我們產品的違規使用信息。
隱私侵犯：鼓勵開發人員和部署人員採用尊重數據隱私的技術，遵守隱私法規。

聯繫我們

如果您發現模型存在任何問題，請通過以下方式聯繫我們：

安全問題：safety@stability.ai
安全漏洞：security@stability.ai
隱私問題：privacy@stability.ai
許可證和一般問題：https://stability.ai/license
企業許可證：https://stability.ai/enterprise

🔧 技術細節

模型改進

MMDiT-X：在Transformer的前13層引入自注意力模塊，增強多分辨率生成和整體圖像連貫性。
QK歸一化：實施QK歸一化技術，提高訓練穩定性。
混合分辨率訓練：
- 漸進式訓練階段：256 → 512 → 768 → 1024 → 1440分辨率。
- 最終階段包括混合尺度圖像訓練，以提升多分辨率生成性能。
- 在較低分辨率階段將位置嵌入空間擴展到384x384（潛在）。
- 對位置嵌入應用隨機裁剪增強，以提高Transformer層在整個混合分辨率和寬高比範圍內的魯棒性。