Stable Diffusion 3.5 Medium
模型概述
可根據文本提示生成高質量圖像,採用改進型多模態擴散變換器架構,集成三項關鍵技術:三個固定預訓練文本編碼器、提升訓練穩定性的QK歸一化技術,以及前12層變換器中的雙重注意力模塊
模型特點
改進型多模態擴散變換器
採用MMDiT-X架構,在變換器前13層引入自注意力模塊,顯著提升多分辨率生成能力和圖像整體協調性
QK歸一化技術
採用QK歸一化技術確保訓練過程穩定
混合分辨率訓練
漸進式訓練階段從256到1440分辨率,增強多分辨率生成能力
多文本編碼器集成
集成CLIP和T5三種文本編碼器,支持77/256個token的上下文長度
模型能力
文本到圖像生成
複雜提示詞理解
高質量圖像生成
多分辨率支持
文字排版
使用案例
藝術創作
概念藝術設計
為遊戲、電影等創作概念藝術圖像
生成具有創意和藝術性的圖像
插畫創作
為書籍、雜誌等創作插畫
快速生成符合主題的插畫作品
商業設計
廣告創意
為廣告活動生成創意視覺內容
快速迭代廣告創意視覺方案
產品設計
為產品設計提供概念可視化
加速產品設計流程
教育研究
生成模型研究
研究文本到圖像生成模型的性能和侷限性
為AI研究提供實驗平臺
🚀 穩定擴散3.5中等模型
穩定擴散3.5中等模型是一款文本到圖像的生成模型,在圖像質量、排版、複雜提示理解和資源效率方面表現出色,能根據文本提示生成高質量圖像。
🚀 快速開始
若要使用此模型,可按以下步驟操作:
- 升級到最新版本的 🧨 diffusers庫:
pip install -U diffusers
- 運行以下代碼:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
✨ 主要特性
- 性能提升:穩定擴散3.5中等模型 是一款改進的多模態擴散變換器(MMDiT-X)文本到圖像模型,在圖像質量、排版、複雜提示理解和資源效率方面表現出色。
- 多文本編碼器:使用三個固定的預訓練文本編碼器,結合QK歸一化提高訓練穩定性,並在Transformer的前12層採用雙注意力塊。
- 多分辨率訓練:通過漸進式訓練階段(256 → 512 → 768 → 1024 → 1440分辨率)和混合分辨率訓練,提升多分辨率圖像生成性能。
📦 安裝指南
環境準備
確保已安裝Python環境,並安裝最新版本的 🧨 diffusers庫:
pip install -U diffusers
量化模型(可選)
若要減少VRAM使用,可對模型進行量化:
pip install bitsandbytes
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
高級用法
量化模型
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-medium"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=40,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
微調模型
請參考 微調指南。
📚 詳細文檔
模型描述
屬性 | 詳情 |
---|---|
開發方 | Stability AI |
模型類型 | MMDiT-X文本到圖像生成模型 |
模型描述 | 該模型根據文本提示生成圖像,是一種改進的多模態擴散變換器(https://arxiv.org/abs/2403.03206),使用三個固定的預訓練文本編碼器,結合QK歸一化提高訓練穩定性,並在Transformer的前12層採用雙注意力塊。 |
許可證
本模型根據 Stability社區許可證 發佈。
- 社區許可證:適用於研究、非商業用途以及年收入低於100萬美元的組織或個人。更多詳情請訪問 Stability AI。
- 商業許可證:對於年收入超過100萬美元的個人或組織,請 聯繫我們 獲取企業許可證。
模型來源
文件結構
點擊此處訪問 文件和版本標籤
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── README.md
├── LICENSE
├── sd3.5_medium.safetensors
├── SD3.5M_example_workflow.json
├── SD3.5M_SLG_example_workflow.json
├── SD3.5L_plus_SD3.5M_upscaling_example_workflow.json
└── sd3_medium_demo.jpg
** 以下是diffusers集成的文件結構 **
├── scheduler/
├── text_encoder/
├── text_encoder_2/
├── text_encoder_3/
├── tokenizer/
├── tokenizer_2/
├── tokenizer_3/
├── transformer/
├── vae/
└── model_index.json
使用與限制
- 提示長度:雖然該模型可以處理長提示,但當T5令牌超過256時,生成的圖像邊緣可能會出現偽影。在工作流程中使用此模型時,請注意令牌限制,若偽影過於明顯,請縮短提示。
- 訓練數據分佈:中等模型與大型模型的訓練數據分佈不同,因此對相同提示的響應可能不同。
- 採樣建議:建議使用 跳過層引導 進行採樣,以獲得更好的結構和解剖學連貫性。
模型性能
有關提示遵循度和美學質量的比較性能研究,請參閱 博客。
預期用途
本模型的預期用途包括:
- 藝術品生成,用於設計和其他藝術創作過程。
- 教育或創意工具中的應用。
- 生成模型的研究,包括瞭解生成模型的侷限性。
所有使用本模型的行為必須符合我們的 可接受使用政策。
非預期用途
本模型並非用於生成事實性或真實的人物或事件表示。因此,使用該模型生成此類內容超出了其能力範圍。
安全措施
作為我們安全設計和負責任AI部署方法的一部分,我們在模型開發的早期階段就採取了措施確保完整性。我們在模型開發的整個過程中實施了安全措施,以降低某些危害的風險。然而,我們建議開發人員根據其特定用例進行自己的測試並應用額外的緩解措施。 有關我們的安全方法的更多信息,請訪問我們的 安全頁面。
完整性評估
我們的完整性評估方法包括結構化評估和針對某些危害的紅隊測試。測試主要以英語進行,可能無法涵蓋所有可能的危害。
識別的風險和緩解措施
- 有害內容:我們在訓練模型時使用了過濾後的數據集,並實施了保障措施,試圖在實用性和防止危害之間取得平衡。然而,這並不能保證所有可能的有害內容都已被移除。所有開發人員和部署人員應謹慎行事,並根據其特定產品政策和應用用例實施內容安全護欄。
- 濫用:技術限制以及開發人員和最終用戶的教育可以幫助減輕模型的惡意應用。所有用戶都必須遵守我們的 可接受使用政策,包括在應用微調和平提示工程機制時。請參考Stability AI可接受使用政策瞭解我們產品的違規使用信息。
- 隱私侵犯:鼓勵開發人員和部署人員採用尊重數據隱私的技術,遵守隱私法規。
聯繫我們
如果您發現模型存在任何問題,請通過以下方式聯繫我們:
- 安全問題:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隱私問題:privacy@stability.ai
- 許可證和一般問題:https://stability.ai/license
- 企業許可證:https://stability.ai/enterprise
🔧 技術細節
模型改進
- MMDiT-X:在Transformer的前13層引入自注意力模塊,增強多分辨率生成和整體圖像連貫性。
- QK歸一化:實施QK歸一化技術,提高訓練穩定性。
- 混合分辨率訓練:
- 漸進式訓練階段:256 → 512 → 768 → 1024 → 1440分辨率。
- 最終階段包括混合尺度圖像訓練,以提升多分辨率生成性能。
- 在較低分辨率階段將位置嵌入空間擴展到384x384(潛在)。
- 對位置嵌入應用隨機裁剪增強,以提高Transformer層在整個混合分辨率和寬高比範圍內的魯棒性。
文本編碼器
- CLIPs:OpenCLIP-ViT/G,CLIP-ViT/L,上下文長度77個令牌。
- T5:T5-xxl,訓練不同階段的上下文長度為77/256個令牌。
訓練數據和策略
本模型在多種數據上進行訓練,包括合成數據和過濾後的公開可用數據。
有關原始MMDiT架構的更多技術細節,請參考 研究論文。
📄 許可證
本模型根據 Stability社區許可證 發佈。請訪問 Stability AI 瞭解更多信息,或 聯繫我們 獲取商業許可證詳情。
Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像
Transformers

C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像
Transformers 英語

F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。該模型是多模態模型,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像
Transformers

G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長視覺問答任務,通過語言-圖像聯合訓練實現多模態理解與生成能力
文本生成圖像
Transformers

B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
Safetensors
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
Safetensors
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一個針對文本生成圖像的評分函數,可用於預測人類偏好、評估模型性能和圖像排序等任務。
文本生成圖像
Transformers

P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像
Transformers

O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
文本生成圖像
Transformers 支持多種語言

L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
764.95k
129
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98