Stable Diffusion 3 Medium開源文本生成圖像模型

首頁

Stable Diffusion 3 Medium

由stabilityai開發

一款多模態擴散變換器(MMDiT)文本生成圖像模型，在圖像質量、文字排版、複雜提示理解及資源效率方面均有顯著提升

文本生成圖像英語開源協議:其他 #多模態擴散變換器 #高質量文字生成圖像 #複雜提示理解

下載量 15.28k

發布時間 : 5/30/2024

模型概述

本模型可根據文本提示生成圖像，採用多模態擴散變換器架構，集成三個固定預訓練文本編碼器

模型特點

多模態架構

採用多模態擴散變換器(MMDiT)架構，集成三個預訓練文本編碼器

高質量圖像生成

在圖像質量、文字排版和複雜提示理解方面有顯著提升

資源效率優化

提供多種權重封裝方案，平衡質量與資源需求

商業友好授權

年收入低於100萬美元的組織或個人可免費用於商業用途

模型能力

文本生成圖像

複雜提示理解

高質量圖像合成

文字排版生成

使用案例

創意設計

藝術作品創作

根據文本描述生成藝術作品

高質量美學圖像

設計流程輔助

為設計師提供創意靈感

多樣化設計概念

教育工具

創意教學工具

開發可視化教學材料

生動直觀的教學內容

研究開發

生成模型研究

探索擴散模型的侷限性和可能性

🚀 Stable Diffusion 3 Medium

Stable Diffusion 3 Medium 是一款文本到圖像的生成模型，它在圖像質量、排版、複雜提示理解和資源效率方面都有顯著提升。該模型可根據文本提示生成圖像，適用於藝術創作、教育工具和生成模型研究等領域。

🚀 快速開始

若要使用 Stable Diffusion 3 Medium 模型進行推理，我們推薦使用 ComfyUI 進行本地或自託管使用。同時，該模型也可在 Stability API 平臺上使用。

使用 Diffusers 庫的示例代碼

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

更多優化和圖像到圖像支持的詳細信息，請參考文檔。

✨ 主要特性

性能提升：在圖像質量、排版、複雜提示理解和資源效率方面表現出色。
多模態融合：採用 Multimodal Diffusion Transformer (MMDiT) 架構，結合三個預訓練的文本編碼器。
豐富的應用場景：可用於藝術創作、教育工具和生成模型研究等領域。

📦 安裝指南

使用 Diffusers 庫時，請確保將其升級到最新版本：

pip install -U diffusers

📚 詳細文檔

模型描述

開發者：Stability AI
模型類型：MMDiT 文本到圖像生成模型
模型說明：該模型可根據文本提示生成圖像，是一個 Multimodal Diffusion Transformer (https://arxiv.org/abs/2403.03206)，使用了三個固定的預訓練文本編碼器（OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl）。

許可證

社區許可證：對於年收入低於 100 萬美元的組織或個人，可免費用於研究、非商業和商業用途。如果您的年收入超過 100 萬美元，並在商業產品或服務中使用 Stability AI 模型，則需要購買企業許可證。詳情請見：https://stability.ai/license
年收入超過閾值的公司：請聯繫我們：https://stability.ai/enterprise

模型來源

ComfyUI：https://github.com/comfyanonymous/ComfyUI
StableSwarmUI：https://github.com/Stability-AI/StableSwarmUI
技術報告：https://stability.ai/news/stable-diffusion-3-research-paper
演示：https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
Diffusers 支持：https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers

訓練數據集

我們使用合成數據和經過篩選的公開可用數據來訓練模型。該模型在 10 億張圖像上進行了預訓練，微調數據包括 3000 萬張專注於特定視覺內容和風格的高質量美學圖像，以及 300 萬張偏好數據圖像。

文件結構

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

我們為 SD3 Medium 模型準備了三種打包變體，每種都配備了相同的 MMDiT 和 VAE 權重，以方便用戶使用。

sd3_medium.safetensors：包含 MMDiT 和 VAE 權重，但不包含任何文本編碼器。
sd3_medium_incl_clips_t5xxlfp16.safetensors：包含所有必要的權重，包括 T5XXL 文本編碼器的 fp16 版本。
sd3_medium_incl_clips_t5xxlfp8.safetensors：包含所有必要的權重，包括 T5XXL 文本編碼器的 fp8 版本，在質量和資源需求之間取得了平衡。
sd3_medium_incl_clips.safetensors：包含所有必要的權重，但不包括 T5XXL 文本編碼器。該模型所需資源最少，但在沒有 T5XXL 文本編碼器的情況下，模型性能會有所不同。
text_encoders 文件夾包含三個文本編碼器及其原始模型卡鏈接，方便用戶使用。text_encoders 文件夾中的所有組件（以及嵌入在其他包中的等效組件）均受其各自的原始許可證約束。
example_workfows 文件夾包含示例工作流程。

預期用途

生成藝術作品，並用於設計和其他藝術創作過程。
應用於教育或創意工具。
研究生成模型，包括瞭解生成模型的侷限性。

所有對模型的使用都應符合我們的可接受使用政策。

非預期用途

該模型並非用於對人物或事件進行事實性或真實性的呈現。因此，使用該模型生成此類內容超出了該模型的能力範圍。

🔧 技術細節

安全措施

作為我們以安全為設計理念和負責任的人工智能部署方法的一部分，我們在模型開發的整個過程中實施了安全措施，從開始預訓練模型到每個模型的持續開發、微調與部署。我們實施了一系列安全緩解措施，旨在降低嚴重危害的風險，但我們建議開發人員根據其特定用例進行自己的測試並應用額外的緩解措施。更多關於我們的安全方法，請訪問我們的安全頁面。

評估方法

我們的評估方法包括結構化評估以及針對特定嚴重危害（如兒童性虐待和剝削、極端暴力和血腥、色情內容和非自願裸露）的內部和外部紅隊測試。測試主要以英語進行，可能無法涵蓋所有可能的危害。與任何模型一樣，該模型有時可能會對用戶提示產生不準確、有偏見或令人反感的響應。

已識別的風險和緩解措施

有害內容：我們在訓練模型時使用了經過篩選的數據集，並實施了保障措施，試圖在實用性和防止危害之間取得平衡。然而，這並不能保證所有可能的有害內容都已被去除。該模型有時可能會生成有毒或有偏見的內容。所有開發人員和部署人員都應謹慎行事，並根據其特定的產品政策和應用用例實施內容安全防護措施。
濫用：技術限制以及對開發人員和最終用戶的教育有助於減輕模型的惡意應用。所有用戶都必須遵守我們的可接受使用政策，包括在應用微調與提示工程機制時。請參考 Stability AI 可接受使用政策，瞭解我們產品的違規使用信息。
隱私侵犯：鼓勵開發人員和部署人員採用尊重數據隱私的技術，遵守隱私法規。