🚀 stable-diffusion-xl-1.0-turbo-GGUF
stable-diffusion-xl-1.0-turbo-GGUF 是一个文本到图像的生成模型,基于 SDXL-Turbo 进行 GGUF 量化。它能快速根据文本提示合成逼真图像,支持特定版本的 llama-box。
🚀 快速开始
此模型仅由 gpustack/llama-box v0.0.75+ 实验性支持!
若要开始使用该模型,可查看 https://github.com/Stability-AI/generative-models 。
✨ 主要特性
- 快速生成:SDXL-Turbo 是快速的文本到图像生成模型,能在单次网络评估中根据文本提示合成逼真图像。
- 多种量化支持:提供 FP16、Q8_0、Q4_1、Q4_0 等多种量化方式。
- 实时演示:可通过 实时演示 体验。
📦 安装指南
安装依赖
pip install diffusers transformers accelerate --upgrade
💻 使用示例
基础用法
文本到图像
SDXL-Turbo 不使用 guidance_scale
或 negative_prompt
,通过 guidance_scale=0.0
禁用。模型优选生成 512x512 大小的图像,但更高尺寸也适用,单步即可生成高质量图像。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
图像到图像
使用 SDXL-Turbo 进行图像到图像生成时,确保 num_inference_steps
* strength
大于或等于 1。图像到图像管道将运行 int(num_inference_steps * strength)
步。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 详细文档
模型详情
模型描述
SDXL-Turbo 是 SDXL 1.0 的蒸馏版本,专为实时合成训练。它基于名为对抗扩散蒸馏(ADD)的新型训练方法(参见 技术报告),允许在 1 到 4 步内以高图像质量对大规模基础图像扩散模型进行采样。
模型来源
用于研究目的,推荐使用 generative-models GitHub 仓库,该仓库实现了最流行的扩散框架(包括训练和推理)。
- 仓库:https://github.com/Stability-AI/generative-models
- 论文:https://stability.ai/research/adversarial-diffusion-distillation
- 演示:http://clipdrop.co/stable-diffusion-turbo
评估
上述图表评估了用户对 SDXL-Turbo 相对于其他单步和多步模型的偏好。在图像质量和遵循提示方面,单步评估的 SDXL-Turbo 比四步(或更少)评估的 LCM-XL 更受人类投票者青睐。此外,SDXL-Turbo 使用四步进一步提高了性能。用户研究详情可参考 研究论文。
用途
直接使用
该模型适用于非商业和商业用途。可在 此许可证 下用于非商业或研究目的,可能的研究领域和任务包括:
- 生成模型研究。
- 生成模型实时应用研究。
- 实时生成模型影响研究。
- 可能生成有害内容的模型的安全部署。
- 探究和理解生成模型的局限性和偏差。
- 艺术品生成及在设计和其他艺术过程中的应用。
- 教育或创意工具中的应用。
商业使用请参考 https://stability.ai/membership 。
超出范围的使用
该模型未针对生成事实或真实的人物或事件表示进行训练,因此使用该模型生成此类内容超出了其能力范围。模型不应以任何违反 Stability AI 可接受使用政策 的方式使用。
局限性和偏差
局限性
- 生成的图像分辨率固定为 512x512 像素,模型无法实现完美的照片级真实感。
- 模型无法渲染清晰的文本。
- 面部和人物一般可能无法正确生成。
- 模型的自动编码部分存在损失。
建议
该模型适用于非商业和商业用途。
🔧 技术细节
GGUF 量化基于 stable-diffusion.cpp ac54e,由 llama-box 打补丁。VAE 来自 madebyollin/sdxl-vae-fp16-fix。
量化方式 |
OpenAI CLIP ViT-L/14 量化 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
FP16 |
📄 许可证
- 许可证类型:other
- 许可证名称:sai-nc-community
- 许可证链接:https://huggingface.co/stabilityai/sdxl-turbo/blob/main/LICENSE.md
⚠️ 重要提示
对于商业使用,请参考 https://stability.ai/license 。模型使用不应违反 Stability AI 的 可接受使用政策。
💡 使用建议
该模型优选生成 512x512 大小的图像,但更高尺寸也适用。进行图像到图像生成时,确保 num_inference_steps
* strength
大于或等于 1。