🚀 SD-Turbo模型卡
SD-Turbo是一款快速的文本到图像生成模型,能够在单次网络评估中根据文本提示合成逼真的图像。我们将SD-Turbo作为研究成果发布,旨在研究小型、蒸馏式的文本到图像模型。若追求更高质量和更好的提示理解能力,建议使用SDXL-Turbo。
请注意:商业使用请参考https://stability.ai/license 。
🚀 快速开始
若想了解该模型的研究相关内容,推荐访问generative-models
的GitHub仓库(https://github.com/Stability-AI/generative-models ),其中实现了最流行的扩散框架(包括训练和推理)。
✨ 主要特性
- 快速生成:能够在单次网络评估中合成图像。
- 基于创新训练方法:采用对抗扩散蒸馏(ADD)方法,可在1 - 4步内以高质量采样大规模基础图像扩散模型。
- 高质量图像:结合分数蒸馏和对抗损失,即使在1 - 2步的低采样步骤中也能确保高图像保真度。
📦 安装指南
使用Diffusers库时,可通过以下命令进行安装:
pip install diffusers transformers accelerate --upgrade
💻 使用示例
基础用法
文本到图像
SD-Turbo不使用guidance_scale
或negative_prompt
,可通过guidance_scale=0.0
禁用。模型优选生成512x512大小的图像,但更高尺寸也适用。只需单步即可生成高质量图像。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
图像到图像
使用SD-Turbo进行图像到图像生成时,需确保num_inference_steps
* strength
大于或等于1。图像到图像管道将运行int(num_inference_steps * strength)
步,例如下面示例中的0.5 * 2.0 = 1步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 详细文档
模型详情
模型描述
SD-Turbo是Stable Diffusion 2.1的蒸馏版本,专为实时合成而训练。SD-Turbo基于一种名为对抗扩散蒸馏(ADD)的新型训练方法(详见技术报告),该方法允许在1 - 4步内以高质量采样大规模基础图像扩散模型。这种方法利用分数蒸馏,将大规模现成的图像扩散模型作为教师信号,并结合对抗损失,以确保即使在1 - 2步的低采样步骤中也能保证高图像保真度。
模型来源
为便于研究,推荐使用generative-models
的GitHub仓库(https://github.com/Stability-AI/generative-models ),其中实现了最流行的扩散框架(包括训练和推理)。
- 仓库地址:https://github.com/Stability-AI/generative-models
- 论文地址:https://stability.ai/research/adversarial-diffusion-distillation
- [更大版本SDXL-Turbo的]演示地址:http://clipdrop.co/stable-diffusion-turbo
评估
上述图表评估了用户对SD-Turbo相对于其他单步和多步模型的偏好。在图像质量和提示遵循度方面,单步评估的SD-Turbo更受人类投票者青睐。
注意:若追求更高质量,建议使用更大版本的SDXL-Turbo。用户研究详情请参考研究论文。
使用范围
直接使用
该模型适用于非商业和商业用途。可能的研究领域和任务包括:
- 生成式模型研究。
- 生成式模型实时应用研究。
- 实时生成式模型影响研究。
- 具有生成有害内容潜在风险的模型的安全部署。
- 探究和理解生成式模型的局限性和偏差。
- 艺术品生成及在设计和其他艺术过程中的应用。
- 教育或创意工具中的应用。
商业使用请参考https://stability.ai/membership 。
以下为排除使用情况。
超出适用范围的使用
该模型并非用于生成事实性或真实反映人物或事件的内容,因此使用该模型生成此类内容超出了其能力范围。不得在任何违反Stability AI可接受使用政策的情况下使用该模型。
局限性和偏差
局限性
- 与SDXL-Turbo相比,质量和提示遵循度较低。
- 生成的图像分辨率固定为512x512像素,且无法实现完美的逼真效果。
- 无法渲染清晰可读的文本。
- 人物面部和整体人物可能无法正确生成。
- 模型的自动编码部分存在信息损失。
建议
该模型适用于非商业和商业用途。
如何开始使用该模型
请访问https://github.com/Stability-AI/generative-models 。
信息表格
属性 |
详情 |
模型类型 |
生成式文本到图像模型 |
微调基础模型 |
Stable Diffusion 2.1 |
开发者 |
Stability AI |
资助方 |
Stability AI |
仓库地址 |
https://github.com/Stability-AI/generative-models |
论文地址 |
https://stability.ai/research/adversarial-diffusion-distillation |
[更大版本SDXL-Turbo的]演示地址 |
http://clipdrop.co/stable-diffusion-turbo |
提示信息
⚠️ 重要提示
商业使用请参考https://stability.ai/license ;使用该模型生成事实性或真实反映人物或事件的内容超出了其能力范围,且不得违反Stability AI的可接受使用政策。
💡 使用建议
若追求更高质量和更好的提示理解能力,建议使用SDXL-Turbo;使用Diffusers库时可通过pip install diffusers transformers accelerate --upgrade
进行安装。