Stable Diffusion XL開源圖像生成模型 - 免費部署生成並細化高質量圖像

首頁

Stable Diffusion Xl Refiner 1.0 With Endpoint Handler

由karimbenharrak開發

SDXL是基於專家集合的潛在擴散模型，包含基礎模型和優化模型兩階段流程，可生成高質量圖像並進行細化處理

圖像生成 #雙階段圖像生成 #高分辨率優化 #潛在擴散模型

下載量 46

發布時間 : 3/14/2024

模型概述

該模型是基於雙文本編碼器的潛在擴散模型，可根據文本提示生成並修改圖像，特別擅長通過優化階段提升圖像質量

模型特點

雙階段生成流程

採用基礎模型生成初始圖像後，通過專門優化模型進行精細化處理，顯著提升圖像質量

SDEdit技術集成

在高分辨率階段應用SDEdit技術，保持原始提示詞的同時優化圖像細節

多文本編碼器支持

整合OpenCLIP-ViT/G和CLIP-ViT/L雙文本編碼器，增強文本理解能力

模型能力

文本到圖像生成

圖像到圖像轉換

圖像質量優化

藝術創作

設計輔助

使用案例

創意設計

藝術作品生成

根據文本描述自動生成各類風格的藝術作品

可生成多種藝術風格的圖像

概念設計

快速生成產品、場景或角色的概念設計圖

加速設計流程，提供創意靈感

教育研究

教學素材生成

為教育場景創建可視化教學素材

豐富教學資源，提高教學效果

生成模型研究

用於擴散模型相關技術的研究與開發

推動生成模型技術進步

🚀 SD-XL 1.0 精煉器模型卡片

SD-XL 1.0 精煉器模型是基於文本提示生成和修改圖像的強大工具，通過獨特的潛在擴散管道，能生成高質量的圖像，在圖像生成領域具有重要的研究價值。

🚀 快速開始

安裝依賴

確保將 diffusers 升級到 >= 0.18.0：

pip install diffusers --upgrade

此外，還需安裝 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

使用精煉器改進圖像

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

提升推理速度

當使用 torch >= 2.0 時，可通過 torch.compile 提升 20 - 30% 的推理速度。在運行管道前，用 torch.compile 包裝 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

處理 GPU 顯存限制

若受限於 GPU 顯存，可調用 pipe.enable_model_cpu_offload 啟用 CPU 卸載，而非使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多高級用例，請查看文檔。

✨ 主要特性

集成專家管道：SDXL 採用集成專家管道進行潛在擴散。先由基礎模型生成（有噪聲的）潛在變量，再由精煉模型進行最終去噪處理。基礎模型也可單獨使用。
兩階段管道可選：可先使用基礎模型生成所需輸出大小的潛在變量，再使用專門的高分辨率模型和 SDEdit 技術（https://arxiv.org/abs/2108.01073，即“img2img”）對潛在變量進行處理。

📦 安裝指南

升級 `diffusers`

pip install diffusers --upgrade

安裝其他依賴

pip install invisible_watermark transformers accelerate safetensors

💻 使用示例

基礎用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高級用法

當使用 torch >= 2.0 時，可通過 torch.compile 提升推理速度：

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

📚 詳細文檔

模型

pipeline

SDXL 由用於潛在擴散的集成專家管道組成：第一步，使用基礎模型（可在 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 獲取）生成（有噪聲的）潛在變量，然後使用專門的精煉模型對其進行最終去噪處理。需注意，基礎模型可單獨使用。

另外，也可使用兩階段管道：首先，使用基礎模型生成所需輸出大小的潛在變量。第二步，使用專門的高分辨率模型，並對第一步生成的潛在變量應用 SDEdit 技術（https://arxiv.org/abs/2108.01073，也稱為“img2img”），使用相同的提示。此技術比第一種稍慢，因為需要更多的函數評估。

源代碼可在 https://github.com/Stability-AI/generative-models 獲取。

模型描述

屬性	詳情
開發者	Stability AI
模型類型	基於擴散的文本到圖像生成模型
許可證	CreativeML Open RAIL++ - M 許可證
模型描述	這是一個可根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP - ViT/G 和 CLIP - ViT/L）。
更多信息資源	查看我們的 GitHub 倉庫和 arXiv 上的 SDXL 報告。

模型來源

出於研究目的，推薦使用我們的 generative-models GitHub 倉庫（https://github.com/Stability-AI/generative-models），該倉庫實現了最流行的擴散框架（包括訓練和推理），並會逐步添加新功能，如蒸餾。 Clipdrop 提供免費的 SDXL 推理。