Stable Diffusion XL Base 1.0開源圖像生成模型 - 免費支持高分辨率圖片創作

首頁

Stable Diffusion Xl Base 1.0

由stabilityai開發

SDXL 1.0是基於擴散的文本生成圖像模型，採用專家集成的潛在擴散流程，支持高分辨率圖像生成

圖像生成 #雙文本編碼器 #專家集成擴散 #高分辨率優化

下載量 2.4M

發布時間 : 7/25/2023

模型概述

該模型可根據文本提示生成並修改圖像，採用雙固定預訓練文本編碼器，是Stability AI開發的先進文生圖模型

模型特點

專家集成架構

採用基礎模型與優化模型協同工作的兩階段流程，顯著提升圖像質量

雙文本編碼器

結合OpenCLIP-ViT/G和CLIP-ViT/L兩種預訓練文本編碼器，增強文本理解能力

高分辨率支持

通過優化模塊支持高分辨率圖像生成，最高可達1024x1024像素

性能優化

支持torch.compile加速和CPU卸載技術，提升推理效率

模型能力

文本到圖像生成

圖像修改

高分辨率圖像生成

藝術風格創作

使用案例

創意設計

概念藝術創作

為遊戲/影視行業快速生成概念藝術圖

可生成多種風格的概念草圖

平面設計

生成廣告、海報等設計素材

提供高質量的視覺元素

教育研究

生成模型研究

用於擴散模型相關算法研究

提供強大的基礎模型

AI教學演示

展示文本到圖像生成技術

直觀展示生成式AI能力

🚀 SD-XL 1.0-base 模型卡片

SD-XL 1.0-base 是一款基於擴散模型的文本到圖像生成模型，可根據文本提示生成和修改圖像。它採用了集成專家的潛在擴散管道，能生成高質量的圖像，在藝術創作、教育工具等研究領域有廣泛應用。

row01

🚀 快速開始

安裝依賴

在使用模型之前，需要安裝必要的依賴庫。確保將 diffusers 升級到 >= 0.19.0，並安裝 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

使用基礎模型

以下是僅使用基礎模型生成圖像的示例代碼：

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

使用基礎模型 + 精煉器管道

若要使用基礎模型和精煉器組成的集成專家管道，可以運行以下代碼：

from diffusers import DiffusionPipeline
import torch

# load both base & refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# run both experts
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

提高推理速度（torch >= 2.0）

當使用 torch >= 2.0 時，可以通過 torch.compile 提高推理速度，在運行管道之前用 torch.compile 包裝 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU 顯存受限處理

如果受 GPU 顯存限制，可以調用 pipe.enable_model_cpu_offload 啟用 CPU 卸載，而不是使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多關於使用 diffusers 運行 Stable Diffusion XL 的信息，請參考 Stable Diffusion XL 文檔。

✨ 主要特性

集成專家管道：採用集成專家的潛在擴散管道，先由基礎模型生成（有噪聲的）潛在變量，再由精煉模型進行最終去噪處理。
多種使用方式：基礎模型可單獨使用，也可與精煉模型結合使用，還能採用兩階段管道生成高分辨率圖像。
多框架支持：支持 diffusers 和 Optimum 框架，Optimum 還兼容 OpenVINO 和 ONNX Runtime。

📦 安裝指南

安裝 Optimum（OpenVINO 支持）

若要使用 OpenVINO 運行模型，需安裝帶有 OpenVINO 依賴的 Optimum：

pip install optimum[openvino]

安裝 Optimum（ONNX Runtime 支持）

若要使用 ONNX Runtime 運行模型，需安裝帶有 ONNX Runtime 推理依賴的 Optimum：

pip install optimum[onnxruntime]

💻 使用示例

基礎用法

上述“快速開始”部分的代碼示例展示瞭如何使用基礎模型和基礎模型 + 精煉器管道生成圖像。

高級用法

OpenVINO 推理

以下是使用 OpenVINO 運行推理的示例代碼：

- from diffusers import StableDiffusionXLPipeline
+ from optimum.intel import OVStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = OVStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

更多示例（如靜態重塑和模型編譯）可在 Optimum 文檔中找到。

ONNX 推理

以下是使用 ONNX Runtime 運行推理的示例代碼：

- from diffusers import StableDiffusionXLPipeline
+ from optimum.onnxruntime import ORTStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = ORTStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

更多示例可在 Optimum 文檔中找到。

📚 詳細文檔

模型介紹

pipeline

SDXL 由用於潛在擴散的集成專家管道組成：第一步，使用基礎模型生成（有噪聲的）潛在變量，然後使用專門用於最終去噪步驟的精煉模型（可在 https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/ 找到）對其進行進一步處理。請注意，基礎模型可以作為獨立模塊使用。

或者，我們可以使用如下的兩階段管道：首先，使用基礎模型生成所需輸出大小的潛在變量。第二步，使用專門的高分辨率模型，並對第一步生成的潛在變量應用一種稱為 SDEdit（https://arxiv.org/abs/2108.01073，也稱為 “img2img”）的技術，使用相同的提示。這種技術比第一種稍慢，因為它需要更多的函數評估。

源代碼可在 https://github.com/Stability-AI/generative-models 找到。

模型詳情

屬性	詳情
開發者	Stability AI
模型類型	基於擴散的文本到圖像生成模型
許可證	CreativeML Open RAIL++-M 許可證
模型描述	這是一個可根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP-ViT/G 和 CLIP-ViT/L）。
更多信息資源	查看我們的 GitHub 倉庫和 arXiv 上的 SDXL 報告。

模型來源

出於研究目的，我們推薦使用 generative-models GitHub 倉庫（https://github.com/Stability-AI/generative-models），它實現了最流行的擴散框架（包括訓練和推理），並且隨著時間推移會添加新功能，如蒸餾。 Clipdrop 提供免費的 SDXL 推理。