🚀 SDXL-Turbo模型
SDXL-Turbo是一款快速的文生圖生成式模型,能夠在單次網絡評估中,根據文本提示合成逼真的圖像。該模型為圖像生成任務提供了高效且優質的解決方案。
🚀 快速開始
若你想開啟模型的使用之旅,可查看:https://github.com/Stability-AI/generative-models
✨ 主要特性
- 即時合成:作為SDXL 1.0的蒸餾版本,專為即時合成而訓練。
- 創新訓練方法:基於名為對抗擴散蒸餾(ADD)的新型訓練方法(詳見技術報告),可在1 - 4步內以高質量對大規模基礎圖像擴散模型進行採樣。
- 高保真圖像:採用分數蒸餾,藉助現成的大規模圖像擴散模型作為教師信號,並結合對抗損失,即使在一兩個採樣步驟的低步數情況下,也能確保圖像的高保真度。
📦 安裝指南
使用以下命令安裝相關依賴:
pip install diffusers transformers accelerate --upgrade
💻 使用示例
基礎用法
文生圖
SDXL-Turbo不使用guidance_scale
或negative_prompt
,我們將guidance_scale
設為0.0
來禁用它。該模型優選生成512x512大小的圖像,但更高尺寸的圖像也能處理。單步即可生成高質量圖像。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
圖生圖
使用SDXL-Turbo進行圖生圖時,要確保num_inference_steps
* strength
大於或等於1。圖生圖管道將運行int(num_inference_steps * strength)
步,例如在下面的示例中,0.5 * 2.0 = 1步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 詳細文檔
模型詳情
模型描述
- 開發者:Stability AI
- 資助方:Stability AI
- 模型類型:生成式文生圖模型
- 微調基礎模型:SDXL 1.0 Base
模型來源
出於研究目的,推薦使用generative-models
GitHub倉庫(https://github.com/Stability-AI/generative-models ),該倉庫實現了最流行的擴散框架(包括訓練和推理)。
- 倉庫:https://github.com/Stability-AI/generative-models
- 論文:https://stability.ai/research/adversarial-diffusion-distillation
- 演示:http://clipdrop.co/stable-diffusion-turbo
評估
上述圖表評估了用戶對SDXL-Turbo相對於其他單步和多步模型的偏好。在圖像質量和遵循提示方面,單步評估的SDXL-Turbo比四步(或更少步數)評估的LCM-XL更受人類投票者青睞。此外,SDXL-Turbo使用四步可進一步提升性能。用戶研究的詳細信息可參考研究論文。
用途
直接使用
該模型適用於非商業和商業用途。你可以在此許可證下將此模型用於非商業或研究目的。可能的研究領域和任務包括:
- 生成式模型的研究。
- 生成式模型即時應用的研究。
- 即時生成式模型影響的研究。
- 對可能生成有害內容的模型進行安全部署。
- 探究和理解生成式模型的侷限性和偏差。
- 藝術品生成以及在設計和其他藝術過程中的應用。
- 在教育或創意工具中的應用。
商業使用請參考:https://stability.ai/membership 。
超出適用範圍的使用
該模型並非用於真實反映人物或事件,因此使用該模型生成此類內容超出了其能力範圍。不得以任何違反Stability AI 可接受使用政策的方式使用該模型。
限制和偏差
限制
- 生成的圖像分辨率固定為512x512像素,且模型無法實現完美的逼真效果。
- 模型無法渲染清晰可讀的文本。
- 面部和人物的生成效果可能不佳。
- 模型的自動編碼部分存在信息損失。
建議
該模型適用於非商業和商業用途。
🔧 技術細節
SDXL-Turbo基於名為對抗擴散蒸餾(ADD)的新型訓練方法。這種方法允許在1 - 4步內以高質量對大規模基礎圖像擴散模型進行採樣。它利用分數蒸餾,將現成的大規模圖像擴散模型作為教師信號,並結合對抗損失,以確保即使在一兩個採樣步驟的低步數情況下,也能生成高保真度的圖像。
📄 許可證
本模型使用的許可證為其他類型,許可證名稱為sai-nc-community,具體許可證內容可查看:許可證鏈接。
⚠️ 重要提示
對於商業使用,請參考https://stability.ai/license 。模型未經過訓練以真實反映人物或事件,使用其生成此類內容超出了模型能力範圍,且不得違反Stability AI的可接受使用政策。
💡 使用建議
若用於研究,推薦使用generative-models
GitHub倉庫(https://github.com/Stability-AI/generative-models ),其中實現了最流行的擴散框架(包括訓練和推理)。