Stable Diffusion XL 1.0-GGUF 开源文本生图模型

首页

Stable Diffusion Xl Base 1.0 GGUF

由 gpustack 开发

Stable Diffusion XL (SDXL) 1.0 是一个基于扩散的文本生成图像模型，能够根据文本提示生成高质量的图像。

文本生成图像 #专家集成流程 #双文本编码器 #高分辨率优化

下载量 1,142

发布时间 : 11/8/2024

模型简介

SDXL 1.0 是一个潜在扩散模型，使用了两个固定的预训练文本编码器（OpenCLIP-ViT/G 和 CLIP-ViT/L），能够生成和修改图像。

模型特点

专家集成流程

SDXL 采用了一种专家集成的潜在扩散流程，基础模型生成潜在表示后，可通过优化模型进一步处理。

高质量图像生成

能够生成高分辨率、高质量的图像，显著优于之前的 Stable Diffusion 版本。

两阶段处理

支持两阶段流程，基础模型生成初始图像后，可通过高分辨率模型进一步优化。

多文本编码器

使用了 OpenCLIP-ViT/G 和 CLIP-ViT/L 两个文本编码器，提升文本理解能力。

模型能力

文本生成图像

图像修改

高分辨率图像生成

使用案例

艺术创作

生成艺术作品

根据文本提示生成独特的艺术作品。

高质量、风格多样的图像

教育

创意工具

作为教育或创意工具，帮助学生和创作者可视化想法。

激发创意和想象力

研究

生成模型研究

用于研究生成模型的性能和局限性。

推动生成模型技术的发展

🚀 stable-diffusion-xl-base-1.0-GGUF

stable-diffusion-xl-base-1.0-GGUF 是一个基于文本生成图像的模型，它基于 Stable Diffusion 架构，能够根据文本提示生成高质量的图像。本项目对其进行了 GGUF 量化处理，并支持在特定环境下使用。

🚀 快速开始

环境要求

本模型仅由 gpustack/llama-box v0.0.75+ 提供实验性支持。

安装依赖

确保升级 diffusers 到 >= 0.19.0：

pip install diffusers --upgrade

此外，还需安装 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

基础使用示例

仅使用基础模型

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

使用基础模型 + 细化器的完整管道

from diffusers import DiffusionPipeline
import torch

# load both base & refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# run both experts
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

加速推理

当使用 torch >= 2.0 时，可通过 torch.compile 提高推理速度 20 - 30%。在运行管道之前，简单地用 torch.compile 包装 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

显存优化

如果受限于 GPU 显存，可调用 pipe.enable_model_cpu_offload 启用 CPU 卸载，而不是使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

✨ 主要特性

模型架构：SDXL 由用于潜在扩散的专家集成管道组成。第一步，使用基础模型生成（有噪声的）潜在变量，然后使用专门用于最终去噪步骤的细化模型（可在此处获取：https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/）对其进行进一步处理。基础模型也可作为独立模块使用。
量化支持：提供多种量化配置，如 FP16、Q8_0、Q4_1 和 Q4_0。 | 量化方式 | OpenAI CLIP ViT-L/14 量化 | OpenCLIP ViT-G/14 量化 | VAE 量化 | | ---- | ---- | ---- | ---- | | FP16 | FP16 | FP16 | FP16 | | Q8_0 | FP16 | FP16 | FP16 | | Q4_1 | FP16 | FP16 | FP16 | | Q4_0 | FP16 | FP16 | FP16 |

📦 安装指南

安装 Optimum 以支持 OpenVINO

pip install optimum[openvino]

安装 Optimum 以支持 ONNX Runtime

pip install optimum[onnxruntime]

📚 详细文档

模型信息

模型创建者：Stability AI
原始模型：stable-diffusion-xl-base-1.0
GGUF 量化：基于 stable-diffusion.cpp ac54e 并由 llama-box 打补丁。
VAE 来源：madebyollin/sdxl-vae-fp16-fix

模型描述

属性	详情
模型类型	基于扩散的文本到图像生成模型
开发者	Stability AI
许可证	CreativeML Open RAIL++-M 许可证
模型说明	这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的 SDXL 报告。

模型来源

研究用途：推荐使用我们的 generative-models Github 仓库（https://github.com/Stability-AI/generative-models），它实现了最流行的扩散框架（包括训练和推理），并且会随着时间添加新功能，如蒸馏。
免费推理：Clipdrop 提供免费的 SDXL 推理。