🚀 SD-Turbo模型卡
SD-Turbo是一款快速的文本到圖像生成模型,能夠在單次網絡評估中根據文本提示合成逼真的圖像。我們將SD-Turbo作為研究成果發佈,旨在研究小型、蒸餾式的文本到圖像模型。若追求更高質量和更好的提示理解能力,建議使用SDXL-Turbo。
請注意:商業使用請參考https://stability.ai/license 。
🚀 快速開始
若想了解該模型的研究相關內容,推薦訪問generative-models
的GitHub倉庫(https://github.com/Stability-AI/generative-models ),其中實現了最流行的擴散框架(包括訓練和推理)。
✨ 主要特性
- 快速生成:能夠在單次網絡評估中合成圖像。
- 基於創新訓練方法:採用對抗擴散蒸餾(ADD)方法,可在1 - 4步內以高質量採樣大規模基礎圖像擴散模型。
- 高質量圖像:結合分數蒸餾和對抗損失,即使在1 - 2步的低採樣步驟中也能確保高圖像保真度。
📦 安裝指南
使用Diffusers庫時,可通過以下命令進行安裝:
pip install diffusers transformers accelerate --upgrade
💻 使用示例
基礎用法
文本到圖像
SD-Turbo不使用guidance_scale
或negative_prompt
,可通過guidance_scale=0.0
禁用。模型優選生成512x512大小的圖像,但更高尺寸也適用。只需單步即可生成高質量圖像。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
圖像到圖像
使用SD-Turbo進行圖像到圖像生成時,需確保num_inference_steps
* strength
大於或等於1。圖像到圖像管道將運行int(num_inference_steps * strength)
步,例如下面示例中的0.5 * 2.0 = 1步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 詳細文檔
模型詳情
模型描述
SD-Turbo是Stable Diffusion 2.1的蒸餾版本,專為即時合成而訓練。SD-Turbo基於一種名為對抗擴散蒸餾(ADD)的新型訓練方法(詳見技術報告),該方法允許在1 - 4步內以高質量採樣大規模基礎圖像擴散模型。這種方法利用分數蒸餾,將大規模現成的圖像擴散模型作為教師信號,並結合對抗損失,以確保即使在1 - 2步的低採樣步驟中也能保證高圖像保真度。
模型來源
為便於研究,推薦使用generative-models
的GitHub倉庫(https://github.com/Stability-AI/generative-models ),其中實現了最流行的擴散框架(包括訓練和推理)。
- 倉庫地址:https://github.com/Stability-AI/generative-models
- 論文地址:https://stability.ai/research/adversarial-diffusion-distillation
- [更大版本SDXL-Turbo的]演示地址:http://clipdrop.co/stable-diffusion-turbo
評估
上述圖表評估了用戶對SD-Turbo相對於其他單步和多步模型的偏好。在圖像質量和提示遵循度方面,單步評估的SD-Turbo更受人類投票者青睞。
注意:若追求更高質量,建議使用更大版本的SDXL-Turbo。用戶研究詳情請參考研究論文。
使用範圍
直接使用
該模型適用於非商業和商業用途。可能的研究領域和任務包括:
- 生成式模型研究。
- 生成式模型即時應用研究。
- 即時生成式模型影響研究。
- 具有生成有害內容潛在風險的模型的安全部署。
- 探究和理解生成式模型的侷限性和偏差。
- 藝術品生成及在設計和其他藝術過程中的應用。
- 教育或創意工具中的應用。
商業使用請參考https://stability.ai/membership 。
以下為排除使用情況。
超出適用範圍的使用
該模型並非用於生成事實性或真實反映人物或事件的內容,因此使用該模型生成此類內容超出了其能力範圍。不得在任何違反Stability AI可接受使用政策的情況下使用該模型。
侷限性和偏差
侷限性
- 與SDXL-Turbo相比,質量和提示遵循度較低。
- 生成的圖像分辨率固定為512x512像素,且無法實現完美的逼真效果。
- 無法渲染清晰可讀的文本。
- 人物面部和整體人物可能無法正確生成。
- 模型的自動編碼部分存在信息損失。
建議
該模型適用於非商業和商業用途。
如何開始使用該模型
請訪問https://github.com/Stability-AI/generative-models 。
信息表格
屬性 |
詳情 |
模型類型 |
生成式文本到圖像模型 |
微調基礎模型 |
Stable Diffusion 2.1 |
開發者 |
Stability AI |
資助方 |
Stability AI |
倉庫地址 |
https://github.com/Stability-AI/generative-models |
論文地址 |
https://stability.ai/research/adversarial-diffusion-distillation |
[更大版本SDXL-Turbo的]演示地址 |
http://clipdrop.co/stable-diffusion-turbo |
提示信息
⚠️ 重要提示
商業使用請參考https://stability.ai/license ;使用該模型生成事實性或真實反映人物或事件的內容超出了其能力範圍,且不得違反Stability AI的可接受使用政策。
💡 使用建議
若追求更高質量和更好的提示理解能力,建議使用SDXL-Turbo;使用Diffusers庫時可通過pip install diffusers transformers accelerate --upgrade
進行安裝。