🚀 Stable Diffusion 3 Medium
Stable Diffusion 3 Medium 是一款文本到圖像的生成模型,它在圖像質量、排版、複雜提示理解和資源效率方面都有顯著提升。該模型可根據文本提示生成圖像,適用於藝術創作、教育工具和生成模型研究等領域。
🚀 快速開始
若要使用 Stable Diffusion 3 Medium 模型進行推理,我們推薦使用 ComfyUI 進行本地或自託管使用。同時,該模型也可在 Stability API 平臺 上使用。
使用 Diffusers 庫的示例代碼
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
更多優化和圖像到圖像支持的詳細信息,請參考 文檔。
✨ 主要特性
- 性能提升:在圖像質量、排版、複雜提示理解和資源效率方面表現出色。
- 多模態融合:採用 Multimodal Diffusion Transformer (MMDiT) 架構,結合三個預訓練的文本編碼器。
- 豐富的應用場景:可用於藝術創作、教育工具和生成模型研究等領域。
📦 安裝指南
使用 Diffusers 庫時,請確保將其升級到最新版本:
pip install -U diffusers
📚 詳細文檔
模型描述
- 開發者:Stability AI
- 模型類型:MMDiT 文本到圖像生成模型
- 模型說明:該模型可根據文本提示生成圖像,是一個 Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206),使用了三個固定的預訓練文本編碼器(OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl)。
許可證
- 社區許可證:對於年收入低於 100 萬美元的組織或個人,可免費用於研究、非商業和商業用途。如果您的年收入超過 100 萬美元,並在商業產品或服務中使用 Stability AI 模型,則需要購買企業許可證。詳情請見:https://stability.ai/license
- 年收入超過閾值的公司:請聯繫我們:https://stability.ai/enterprise
模型來源
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- StableSwarmUI:https://github.com/Stability-AI/StableSwarmUI
- 技術報告:https://stability.ai/news/stable-diffusion-3-research-paper
- 演示:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
- Diffusers 支持:https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers
訓練數據集
我們使用合成數據和經過篩選的公開可用數據來訓練模型。該模型在 10 億張圖像上進行了預訓練,微調數據包括 3000 萬張專注於特定視覺內容和風格的高質量美學圖像,以及 300 萬張偏好數據圖像。
文件結構
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors
我們為 SD3 Medium 模型準備了三種打包變體,每種都配備了相同的 MMDiT 和 VAE 權重,以方便用戶使用。
sd3_medium.safetensors
:包含 MMDiT 和 VAE 權重,但不包含任何文本編碼器。
sd3_medium_incl_clips_t5xxlfp16.safetensors
:包含所有必要的權重,包括 T5XXL 文本編碼器的 fp16 版本。
sd3_medium_incl_clips_t5xxlfp8.safetensors
:包含所有必要的權重,包括 T5XXL 文本編碼器的 fp8 版本,在質量和資源需求之間取得了平衡。
sd3_medium_incl_clips.safetensors
:包含所有必要的權重,但不包括 T5XXL 文本編碼器。該模型所需資源最少,但在沒有 T5XXL 文本編碼器的情況下,模型性能會有所不同。
text_encoders
文件夾包含三個文本編碼器及其原始模型卡鏈接,方便用戶使用。text_encoders 文件夾中的所有組件(以及嵌入在其他包中的等效組件)均受其各自的原始許可證約束。
example_workfows
文件夾包含示例工作流程。
預期用途
- 生成藝術作品,並用於設計和其他藝術創作過程。
- 應用於教育或創意工具。
- 研究生成模型,包括瞭解生成模型的侷限性。
所有對模型的使用都應符合我們的 可接受使用政策。
非預期用途
該模型並非用於對人物或事件進行事實性或真實性的呈現。因此,使用該模型生成此類內容超出了該模型的能力範圍。
🔧 技術細節
安全措施
作為我們以安全為設計理念和負責任的人工智能部署方法的一部分,我們在模型開發的整個過程中實施了安全措施,從開始預訓練模型到每個模型的持續開發、微調與部署。我們實施了一系列安全緩解措施,旨在降低嚴重危害的風險,但我們建議開發人員根據其特定用例進行自己的測試並應用額外的緩解措施。
更多關於我們的安全方法,請訪問我們的 安全頁面。
評估方法
我們的評估方法包括結構化評估以及針對特定嚴重危害(如兒童性虐待和剝削、極端暴力和血腥、色情內容和非自願裸露)的內部和外部紅隊測試。測試主要以英語進行,可能無法涵蓋所有可能的危害。與任何模型一樣,該模型有時可能會對用戶提示產生不準確、有偏見或令人反感的響應。
已識別的風險和緩解措施
- 有害內容:我們在訓練模型時使用了經過篩選的數據集,並實施了保障措施,試圖在實用性和防止危害之間取得平衡。然而,這並不能保證所有可能的有害內容都已被去除。該模型有時可能會生成有毒或有偏見的內容。所有開發人員和部署人員都應謹慎行事,並根據其特定的產品政策和應用用例實施內容安全防護措施。
- 濫用:技術限制以及對開發人員和最終用戶的教育有助於減輕模型的惡意應用。所有用戶都必須遵守我們的可接受使用政策,包括在應用微調與提示工程機制時。請參考 Stability AI 可接受使用政策,瞭解我們產品的違規使用信息。
- 隱私侵犯:鼓勵開發人員和部署人員採用尊重數據隱私的技術,遵守隱私法規。
聯繫信息
請報告模型的任何問題或聯繫我們:
- 安全問題:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隱私問題:privacy@stability.ai
- 許可證和一般問題:https://stability.ai/license
- 企業許可證:https://stability.ai/enterprise
📄 許可證
本模型採用 Stability Community License 發佈。如需企業許可證,請訪問 Stability.ai 或 聯繫我們 瞭解商業許可詳情。