Stable Diffusion XL 1.0-GGUF 開源文本生圖模型

首頁

Stable Diffusion Xl Base 1.0 GGUF

由gpustack開發

Stable Diffusion XL (SDXL) 1.0 是一個基於擴散的文本生成圖像模型，能夠根據文本提示生成高質量的圖像。

文本生成圖像 #專家集成流程 #雙文本編碼器 #高分辨率優化

下載量 1,142

發布時間 : 11/8/2024

模型概述

SDXL 1.0 是一個潛在擴散模型，使用了兩個固定的預訓練文本編碼器（OpenCLIP-ViT/G 和 CLIP-ViT/L），能夠生成和修改圖像。

模型特點

專家集成流程

SDXL 採用了一種專家集成的潛在擴散流程，基礎模型生成潛在表示後，可通過優化模型進一步處理。

高質量圖像生成

能夠生成高分辨率、高質量的圖像，顯著優於之前的 Stable Diffusion 版本。

兩階段處理

支持兩階段流程，基礎模型生成初始圖像後，可通過高分辨率模型進一步優化。

多文本編碼器

使用了 OpenCLIP-ViT/G 和 CLIP-ViT/L 兩個文本編碼器，提升文本理解能力。

模型能力

文本生成圖像

圖像修改

高分辨率圖像生成

使用案例

藝術創作

生成藝術作品

根據文本提示生成獨特的藝術作品。

高質量、風格多樣的圖像

教育

創意工具

作為教育或創意工具，幫助學生和創作者可視化想法。

激發創意和想象力

研究

生成模型研究

用於研究生成模型的性能和侷限性。

推動生成模型技術的發展

🚀 stable-diffusion-xl-base-1.0-GGUF

stable-diffusion-xl-base-1.0-GGUF 是一個基於文本生成圖像的模型，它基於 Stable Diffusion 架構，能夠根據文本提示生成高質量的圖像。本項目對其進行了 GGUF 量化處理，並支持在特定環境下使用。

🚀 快速開始

環境要求

本模型僅由 gpustack/llama-box v0.0.75+ 提供實驗性支持。

安裝依賴

確保升級 diffusers 到 >= 0.19.0：

pip install diffusers --upgrade

此外，還需安裝 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

基礎使用示例

僅使用基礎模型

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

使用基礎模型 + 細化器的完整管道

from diffusers import DiffusionPipeline
import torch

# load both base & refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# run both experts
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

加速推理

當使用 torch >= 2.0 時，可通過 torch.compile 提高推理速度 20 - 30%。在運行管道之前，簡單地用 torch.compile 包裝 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

顯存優化

如果受限於 GPU 顯存，可調用 pipe.enable_model_cpu_offload 啟用 CPU 卸載，而不是使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

✨ 主要特性

模型架構：SDXL 由用於潛在擴散的專家集成管道組成。第一步，使用基礎模型生成（有噪聲的）潛在變量，然後使用專門用於最終去噪步驟的細化模型（可在此處獲取：https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/）對其進行進一步處理。基礎模型也可作為獨立模塊使用。
量化支持：提供多種量化配置，如 FP16、Q8_0、Q4_1 和 Q4_0。 | 量化方式 | OpenAI CLIP ViT-L/14 量化 | OpenCLIP ViT-G/14 量化 | VAE 量化 | | ---- | ---- | ---- | ---- | | FP16 | FP16 | FP16 | FP16 | | Q8_0 | FP16 | FP16 | FP16 | | Q4_1 | FP16 | FP16 | FP16 | | Q4_0 | FP16 | FP16 | FP16 |

📦 安裝指南

安裝 Optimum 以支持 OpenVINO

pip install optimum[openvino]

安裝 Optimum 以支持 ONNX Runtime

pip install optimum[onnxruntime]

📚 詳細文檔

模型信息

模型創建者：Stability AI
原始模型：stable-diffusion-xl-base-1.0
GGUF 量化：基於 stable-diffusion.cpp ac54e 並由 llama-box 打補丁。
VAE 來源：madebyollin/sdxl-vae-fp16-fix

模型描述

屬性	詳情
模型類型	基於擴散的文本到圖像生成模型
開發者	Stability AI
許可證	CreativeML Open RAIL++-M 許可證
模型說明	這是一個可用於根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。
更多信息資源	查看我們的 GitHub 倉庫和 arXiv 上的 SDXL 報告。

模型來源

研究用途：推薦使用我們的 generative-models Github 倉庫（https://github.com/Stability-AI/generative-models），它實現了最流行的擴散框架（包括訓練和推理），並且會隨著時間添加新功能，如蒸餾。
免費推理：Clipdrop 提供免費的 SDXL 推理。