Stable Diffusion 3.5 Medium
模型概述
基於文本提示生成高質量圖像的擴散模型,支持複雜場景理解和多分辨率生成
模型特點
MMDiT-X架構
在變換器前13層引入自注意力模塊,顯著提升多分辨率生成能力與圖像整體協調性
QK歸一化
採用QK歸一化技術增強訓練穩定性
混合分辨率訓練
漸進式訓練策略支持256→1440像素的多分辨率生成,採用隨機裁剪增強技術提升魯棒性
多文本編碼器集成
整合CLIP系列和T5-xxl三種文本編碼器,支持77-256個token的上下文長度
模型能力
文本生成圖像
複雜場景理解
多分辨率圖像生成
藝術創作輔助
排版效果優化
使用案例
創意設計
概念藝術創作
為遊戲/影視行業快速生成概念藝術圖
生成具有統一藝術風格的場景/角色設計
平面設計輔助
生成廣告/海報的視覺元素
快速產出符合文案主題的視覺方案
教育研究
生成模型研究
探索擴散模型的侷限性與改進方向
🚀 Stable Diffusion 3.5 Medium
Stable Diffusion 3.5 Medium是一款文本到圖像的生成模型,它基於改進的多模態擴散變換器(MMDiT-X)架構,在圖像質量、排版、複雜提示理解和資源效率方面表現出色。
🚀 快速開始
若要使用此模型,你可以按照以下步驟操作:
- 升級到最新版本的 🧨 diffusers庫:
pip install -U diffusers
- 運行以下代碼:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
✨ 主要特性
- 高性能:在圖像質量、排版、複雜提示理解和資源效率方面有顯著提升。
- 多文本編碼器:使用三個固定的預訓練文本編碼器,包括 OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl。
- 多分辨率訓練:通過漸進式訓練階段(256 → 512 → 768 → 1024 → 1440 分辨率)和混合分辨率訓練,提升多分辨率圖像生成性能。
- QK歸一化:實現QK歸一化技術,提高訓練穩定性。
📦 安裝指南
安裝依賴庫
pip install -U diffusers
量化模型(可選)
若要減少VRAM使用,可以對模型進行量化:
pip install bitsandbytes
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
高級用法
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-medium"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=40,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
📚 詳細文檔
模型
Stable Diffusion 3.5 Medium 是一個基於改進的多模態擴散變換器(MMDiT-X)的文本到圖像生成模型。
模型描述
屬性 | 詳情 |
---|---|
開發方 | Stability AI |
模型類型 | MMDiT-X 文本到圖像生成模型 |
模型描述 | 該模型根據文本提示生成圖像。它是一個改進的多模態擴散變換器(https://arxiv.org/abs/2403.03206),使用三個固定的預訓練文本編碼器,採用QK歸一化提高訓練穩定性,並在Transformer的前12層使用雙注意力塊。 |
許可證
- 社區許可證:適用於研究、非商業用途以及年收入低於100萬美元的組織或個人。更多詳情請見 社區許可協議。請訪問 https://stability.ai/license 瞭解更多信息。
- 企業許可證:對於年收入超過100萬美元的個人或組織,請 聯繫我們 獲取企業許可證。
模型來源
文件結構
點擊此處訪問 文件和版本標籤
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
└── sd3_medium_demo.jpg
** 以下文件結構用於diffusers集成 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用與限制
- 雖然該模型可以處理長提示,但當T5令牌超過256時,生成的圖像邊緣可能會出現偽影。在工作流程中使用該模型時,請注意令牌限制,如果偽影過於明顯,請縮短提示。
- 中等模型的訓練數據分佈與大型模型不同,因此對相同提示的響應可能不同。
- 建議使用 Skip Layer Guidance 進行採樣,以獲得更好的結構和解剖學連貫性。
模型性能
有關提示遵循度和美學質量的比較性能研究,請參閱 博客。
用途
預期用途
- 生成藝術作品並用於設計和其他藝術過程。
- 用於教育或創意工具。
- 研究生成模型,包括瞭解生成模型的侷限性。
所有模型的使用都必須符合我們的 可接受使用政策。
非預期用途
該模型並非用於生成真實或準確反映人物或事件的內容。因此,使用該模型生成此類內容超出了其能力範圍。
安全
作為我們安全設計和負責任AI部署方法的一部分,我們採取了一系列措施來確保模型的安全性。我們在模型開發的各個階段都實施了安全措施,並採取了安全緩解措施以降低某些危害的風險。然而,我們建議開發者根據具體用例進行自己的測試並應用額外的緩解措施。有關我們的安全方法的更多信息,請訪問我們的 安全頁面。
完整性評估
我們的完整性評估方法包括結構化評估和針對某些危害的紅隊測試。測試主要以英語進行,可能無法涵蓋所有可能的危害。
已識別的風險和緩解措施
- 有害內容:我們在訓練模型時使用了過濾後的數據集,並實施了保障措施,試圖在實用性和防止危害之間取得平衡。然而,這並不能保證所有可能的有害內容都已被去除。所有開發者和部署者都應謹慎行事,並根據具體產品政策和應用用例實施內容安全防護措施。
- 濫用:技術限制以及開發者和最終用戶的教育可以幫助減輕模型的惡意應用。所有用戶都必須遵守我們的 可接受使用政策,包括在應用微調和平提示工程機制時。請參考Stability AI可接受使用政策以瞭解我們產品的違規使用信息。
- 隱私侵犯:鼓勵開發者和部署者採用尊重數據隱私的技術,遵守隱私法規。
聯繫我們
如有任何與模型相關的問題,請通過以下方式聯繫我們:
- 安全問題:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隱私問題:privacy@stability.ai
- 許可證和一般問題:https://stability.ai/license
- 企業許可證:https://stability.ai/enterprise
微調
請參閱 此處 的微調指南。
🔧 技術細節
實現細節
- MMDiT-X:在Transformer的前13層引入自注意力模塊,增強多分辨率生成和整體圖像連貫性。
- QK歸一化:實現QK歸一化技術,提高訓練穩定性。
- 混合分辨率訓練:
- 漸進式訓練階段:256 → 512 → 768 → 1024 → 1440 分辨率
- 最後階段包括混合尺度圖像訓練,以提高多分辨率生成性能
- 在較低分辨率階段將位置嵌入空間擴展到384x384(潛在)
- 在位置嵌入上採用隨機裁剪增強,以提高Transformer層在整個混合分辨率和寬高比範圍內的魯棒性。例如,對於64x64的潛在圖像,我們在訓練期間從192x192嵌入空間中隨機裁剪一個64x64的嵌入作為x流的輸入。
這些改進共同提升了模型在多分辨率圖像生成、連貫性和適應性方面的性能。
文本編碼器
- CLIPs:OpenCLIP-ViT/G,CLIP-ViT/L,上下文長度77個令牌
- T5:T5-xxl,在不同訓練階段上下文長度為77/256個令牌
訓練數據和策略
該模型在多種數據上進行訓練,包括合成數據和經過過濾的公開可用數據。有關原始MMDiT架構的更多技術細節,請參閱 研究論文。
📄 許可證
本模型遵循 Stability社區許可證。請訪問 Stability AI 瞭解更多信息或 聯繫我們 獲取商業許可詳情。
Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。該模型是多模態模型,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長視覺問答任務,通過語言-圖像聯合訓練實現多模態理解與生成能力
文本生成圖像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一個針對文本生成圖像的評分函數,可用於預測人類偏好、評估模型性能和圖像排序等任務。
文本生成圖像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
文本生成圖像
Transformers 支持多種語言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
764.95k
129
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98