🚀 stable-diffusion-xl-refiner-1.0-GGUF
本項目基於Stable Diffusion技術,提供了圖像生成和修改的能力。通過特定的量化配置和模型架構,可根據文本提示生成高質量圖像,適用於藝術創作、教育工具等研究領域。
📄 許可證
本項目採用 CreativeML Open RAIL++-M License 許可協議。
📦 安裝指南
升級 diffusers
庫
pip install diffusers --upgrade
安裝其他依賴庫
pip install invisible_watermark transformers accelerate safetensors
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image
pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"
init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images
高級用法
使用 torch.compile
提升推理速度
當使用 torch >= 2.0
時,可通過 torch.compile
提升 20 - 30% 的推理速度。在運行管道前,用 torch.compile
包裝 unet
:
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
啟用 CPU 卸載
如果受限於 GPU 顯存,可調用 pipe.enable_model_cpu_offload
啟用 CPU 卸載,而不是使用 .to("cuda")
:
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
📚 詳細文檔
模型信息
量化信息
量化方式 |
OpenCLIP ViT-G/14 量化 |
VAE 量化 |
FP16 |
FP16 |
FP16 |
Q8_0 |
FP16 |
FP16 |
Q4_1 |
FP16 |
FP16 |
Q4_0 |
FP16 |
FP16 |
模型架構

SDXL 由一個用於潛在擴散的 專家集成 管道組成:
第一步,使用基礎模型(可在 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 獲取)生成(有噪聲的)潛在變量,然後使用專門用於最終去噪步驟的細化模型對其進行進一步處理。請注意,基礎模型可以作為獨立模塊使用。
或者,我們可以使用如下的兩階段管道:
首先,使用基礎模型生成所需輸出大小的潛在變量。第二步,使用專門的高分辨率模型,並對第一步生成的潛在變量應用一種稱為 SDEdit(https://arxiv.org/abs/2108.01073,也稱為 “img2img”)的技術,使用相同的提示。這種技術比第一種方法稍慢,因為它需要更多的函數評估。
源代碼可在 https://github.com/Stability-AI/generative-models 獲取。
評估結果

上圖評估了用戶對 SDXL(有和沒有細化)相對於 SDXL 0.9 以及 Stable Diffusion 1.5 和 2.1 的偏好。SDXL 基礎模型的表現明顯優於之前的版本,而與細化模塊結合的模型則實現了最佳的整體性能。
🔧 技術細節
模型來源
為了進行研究,我們推薦使用 generative-models
GitHub 倉庫(https://github.com/Stability-AI/generative-models),該倉庫實現了最流行的擴散框架(包括訓練和推理),並且會隨著時間的推移添加新的功能,如蒸餾。
Clipdrop 提供免費的 SDXL 推理服務。
模型使用範圍
直接使用
該模型僅用於研究目的。可能的研究領域和任務包括:
- 藝術作品的生成,以及在設計和其他藝術過程中的應用。
- 教育或創意工具中的應用。
- 生成模型的研究。
- 安全部署有可能生成有害內容的模型。
- 探索和理解生成模型的侷限性和偏差。
超出範圍的使用
該模型並非用於生成真實或準確反映人物或事件的內容,因此使用該模型生成此類內容超出了其能力範圍。
侷限性和偏差
侷限性
- 模型無法實現完美的照片級真實感。
- 模型無法渲染清晰可讀的文本。
- 模型在處理涉及組合性的更復雜任務時存在困難,例如渲染與 “一個紅色立方體放在藍色球體上” 對應的圖像。
- 面部和人物的生成可能不夠理想。
- 模型的自動編碼部分存在信息損失。
偏差
雖然圖像生成模型的能力令人印象深刻,但它們也可能強化或加劇社會偏差。
⚠️ 重要提示
本模型僅支持 gpustack/llama-box v0.0.75+ 版本。
💡 使用建議
更多高級用例,請參考 文檔。