🚀 穩定擴散3中型模型
穩定擴散3中型模型是一款文本到圖像的生成模型,在圖像質量、排版、複雜提示理解和資源效率方面表現出色。它能根據文本提示生成高質量圖像,適用於藝術創作、教育工具和生成模型研究等領域。
🚀 快速開始
使用此模型前,請確保將 diffusers
升級到最新版本:
pip install -U diffusers
然後運行以下代碼:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
更多優化和圖像到圖像支持的詳細信息,請參考 文檔。
✨ 主要特性
📦 安裝指南
確保將 diffusers
升級到最新版本:
pip install -U diffusers
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
📚 詳細文檔
模型描述
屬性 |
詳情 |
開發者 |
Stability AI |
模型類型 |
MMDiT 文本到圖像生成模型 |
模型描述 |
這是一個可根據文本提示生成圖像的模型。它是一個多模態擴散變換器(https://arxiv.org/abs/2403.03206),使用三個固定的預訓練文本編碼器(OpenCLIP-ViT/G、CLIP-ViT/L 和 T5-xxl) |
許可證
- 非商業使用:穩定擴散3中型模型根據 Stability AI 非商業研究社區許可證 發佈。該模型可免費用於學術研究等非商業目的。
- 商業使用:未經 Stability 單獨的商業許可,此模型不可用於商業用途。我們鼓勵專業藝術家、設計師和創作者使用我們的創作者許可證。請訪問 https://stability.ai/license 瞭解更多信息。
模型來源
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- StableSwarmUI:https://github.com/Stability-AI/StableSwarmUI
- 技術報告:https://stability.ai/news/stable-diffusion-3-research-paper
- 演示:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
訓練數據集
我們使用合成數據和經過篩選的公開可用數據來訓練模型。該模型在 10 億張圖像上進行了預訓練。微調數據包括 3000 萬張專注於特定視覺內容和風格的高質量美學圖像,以及 300 萬張偏好數據圖像。
使用場景
預期用途
- 生成藝術品並用於設計和其他藝術創作過程。
- 應用於教育或創意工具。
- 對生成模型進行研究,包括瞭解生成模型的侷限性。
所有模型使用都應符合我們的 可接受使用政策。
非預期用途
該模型並非用於真實或準確地呈現人物或事件。因此,使用該模型生成此類內容超出了該模型的能力範圍。
安全性
作為我們設計安全和負責任的人工智能部署方法的一部分,我們在模型開發的整個過程中實施了安全措施,從開始預訓練模型到持續開發、微調以及每個模型的部署。我們實施了多項安全緩解措施,旨在降低嚴重危害的風險,但我們建議開發人員根據其特定用例進行自己的測試並應用額外的緩解措施。
更多關於我們的安全方法,請訪問我們的 安全頁面。
評估方法
我們的評估方法包括結構化評估以及針對特定嚴重危害(如兒童性虐待和剝削、極端暴力和血腥、色情內容和非自願裸體)的內部和外部紅隊測試。測試主要以英語進行,可能無法涵蓋所有可能的危害。與任何模型一樣,該模型有時可能會對用戶提示產生不準確、有偏見或令人反感的響應。
已識別的風險和緩解措施
- 有害內容:我們在訓練模型時使用了經過篩選的數據集,並實施了保障措施,試圖在實用性和防止危害之間取得平衡。然而,這並不能保證所有可能的有害內容都已被移除。該模型有時可能會生成有毒或有偏見的內容。所有開發人員和部署人員都應謹慎行事,並根據其特定產品政策和應用用例實施內容安全防護措施。
- 濫用:技術限制以及對開發人員和最終用戶的教育有助於減輕模型的惡意應用。所有用戶都必須遵守我們的 可接受使用政策,包括在應用微調提示工程機制時。請參考 Stability AI 可接受使用政策,瞭解有關我們產品違規使用的信息。
- 隱私侵犯:鼓勵開發人員和部署人員採用尊重數據隱私的技術來遵守隱私法規。
聯繫我們
請報告模型的任何問題或聯繫我們:
- 安全問題:safety@stability.ai
- 安全漏洞:security@stability.ai
- 隱私問題:privacy@stability.ai
- 許可證和一般問題:https://stability.ai/license
- 企業許可證:https://stability.ai/enterprise