Stable Diffusion 3.5 Medium開源圖像生成模型 - 免費生成高質量排版清晰的圖像

首頁

Stable Diffusion 3.5 Medium

由ckpt開發

採用改進型多模態擴散變換器（MMDiT-X）的文本生成圖像模型，在圖像質量、排版效果、複雜提示理解及資源效率方面均有顯著提升

文本生成圖像英語開源協議:其他 #多分辨率圖像生成 #複雜提示理解 #排版優化

下載量 371

發布時間 : 10/29/2024

模型概述

基於文本提示生成高質量圖像的擴散模型，支持複雜場景理解和多分辨率生成

模型特點

MMDiT-X架構

在變換器前13層引入自注意力模塊，顯著提升多分辨率生成能力與圖像整體協調性

QK歸一化

採用QK歸一化技術增強訓練穩定性

混合分辨率訓練

漸進式訓練策略支持256→1440像素的多分辨率生成，採用隨機裁剪增強技術提升魯棒性

多文本編碼器集成

整合CLIP系列和T5-xxl三種文本編碼器，支持77-256個token的上下文長度

模型能力

文本生成圖像

複雜場景理解

多分辨率圖像生成

藝術創作輔助

排版效果優化

使用案例

創意設計

概念藝術創作

為遊戲/影視行業快速生成概念藝術圖

生成具有統一藝術風格的場景/角色設計

平面設計輔助

生成廣告/海報的視覺元素

快速產出符合文案主題的視覺方案

教育研究

生成模型研究

探索擴散模型的侷限性與改進方向

🚀 Stable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一款文本到圖像的生成模型，它基於改進的多模態擴散變換器（MMDiT-X）架構，在圖像質量、排版、複雜提示理解和資源效率方面表現出色。

3.5 Medium Demo Image

🚀 快速開始

若要使用此模型，你可以按照以下步驟操作：

升級到最新版本的 🧨 diffusers庫：

pip install -U diffusers

運行以下代碼：

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

✨ 主要特性

高性能：在圖像質量、排版、複雜提示理解和資源效率方面有顯著提升。
多文本編碼器：使用三個固定的預訓練文本編碼器，包括 OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl。
多分辨率訓練：通過漸進式訓練階段（256 → 512 → 768 → 1024 → 1440 分辨率）和混合分辨率訓練，提升多分辨率圖像生成性能。
QK歸一化：實現QK歸一化技術，提高訓練穩定性。

📦 安裝指南

安裝依賴庫

pip install -U diffusers

量化模型（可選）

若要減少VRAM使用，可以對模型進行量化：

pip install bitsandbytes

💻 使用示例

基礎用法

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

高級用法

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id, 
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree.  As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

📚 詳細文檔

模型

MMDiT-X

Stable Diffusion 3.5 Medium 是一個基於改進的多模態擴散變換器（MMDiT-X）的文本到圖像生成模型。

模型描述

屬性	詳情
開發方	Stability AI
模型類型	MMDiT-X 文本到圖像生成模型
模型描述	該模型根據文本提示生成圖像。它是一個改進的多模態擴散變換器（https://arxiv.org/abs/2403.03206），使用三個固定的預訓練文本編碼器，採用QK歸一化提高訓練穩定性，並在Transformer的前12層使用雙注意力塊。

許可證

社區許可證：適用於研究、非商業用途以及年收入低於100萬美元的組織或個人。更多詳情請見社區許可協議。請訪問 https://stability.ai/license 瞭解更多信息。
企業許可證：對於年收入超過100萬美元的個人或組織，請聯繫我們獲取企業許可證。

模型來源

ComfyUI：Github，示例工作流
Huggingface Space：Space
Diffusers：見下文
GitHub：GitHub
API端點：Stability AI API

文件結構

點擊此處訪問文件和版本標籤

│
├── text_encoders/  
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
└── sd3_medium_demo.jpg

** 以下文件結構用於diffusers集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json

使用與限制

雖然該模型可以處理長提示，但當T5令牌超過256時，生成的圖像邊緣可能會出現偽影。在工作流程中使用該模型時，請注意令牌限制，如果偽影過於明顯，請縮短提示。
中等模型的訓練數據分佈與大型模型不同，因此對相同提示的響應可能不同。
建議使用 Skip Layer Guidance 進行採樣，以獲得更好的結構和解剖學連貫性。

模型性能

有關提示遵循度和美學質量的比較性能研究，請參閱博客。

用途

預期用途

生成藝術作品並用於設計和其他藝術過程。
用於教育或創意工具。
研究生成模型，包括瞭解生成模型的侷限性。

所有模型的使用都必須符合我們的可接受使用政策。

非預期用途

該模型並非用於生成真實或準確反映人物或事件的內容。因此，使用該模型生成此類內容超出了其能力範圍。

安全

作為我們安全設計和負責任AI部署方法的一部分，我們採取了一系列措施來確保模型的安全性。我們在模型開發的各個階段都實施了安全措施，並採取了安全緩解措施以降低某些危害的風險。然而，我們建議開發者根據具體用例進行自己的測試並應用額外的緩解措施。有關我們的安全方法的更多信息，請訪問我們的安全頁面。

完整性評估

我們的完整性評估方法包括結構化評估和針對某些危害的紅隊測試。測試主要以英語進行，可能無法涵蓋所有可能的危害。

已識別的風險和緩解措施

有害內容：我們在訓練模型時使用了過濾後的數據集，並實施了保障措施，試圖在實用性和防止危害之間取得平衡。然而，這並不能保證所有可能的有害內容都已被去除。所有開發者和部署者都應謹慎行事，並根據具體產品政策和應用用例實施內容安全防護措施。
濫用：技術限制以及開發者和最終用戶的教育可以幫助減輕模型的惡意應用。所有用戶都必須遵守我們的可接受使用政策，包括在應用微調和平提示工程機制時。請參考Stability AI可接受使用政策以瞭解我們產品的違規使用信息。
隱私侵犯：鼓勵開發者和部署者採用尊重數據隱私的技術，遵守隱私法規。

聯繫我們

如有任何與模型相關的問題，請通過以下方式聯繫我們：

安全問題：safety@stability.ai
安全漏洞：security@stability.ai
隱私問題：privacy@stability.ai
許可證和一般問題：https://stability.ai/license
企業許可證：https://stability.ai/enterprise

微調

請參閱此處的微調指南。

🔧 技術細節

實現細節

MMDiT-X：在Transformer的前13層引入自注意力模塊，增強多分辨率生成和整體圖像連貫性。
QK歸一化：實現QK歸一化技術，提高訓練穩定性。
混合分辨率訓練：
- 漸進式訓練階段：256 → 512 → 768 → 1024 → 1440 分辨率
- 最後階段包括混合尺度圖像訓練，以提高多分辨率生成性能
- 在較低分辨率階段將位置嵌入空間擴展到384x384（潛在）
- 在位置嵌入上採用隨機裁剪增強，以提高Transformer層在整個混合分辨率和寬高比範圍內的魯棒性。例如，對於64x64的潛在圖像，我們在訓練期間從192x192嵌入空間中隨機裁剪一個64x64的嵌入作為x流的輸入。

這些改進共同提升了模型在多分辨率圖像生成、連貫性和適應性方面的性能。