SDXL - Base開源圖像生成模型 - 免費高效用文本輕鬆繪出精美圖像

首頁

Sdxl Base

由Zedge開發

Stability AI開發的文本生成圖像擴散模型，採用雙文本編碼器和潛在擴散技術，支持獨立使用或配合優化模塊提升效果

圖像生成 #雙階段文生圖 #專家集成擴散 #藝術創作優化

下載量 6,735

發布時間 : 4/25/2025

模型概述

基於潛在擴散架構的先進文生圖模型，通過專家集成流程實現高質量圖像生成，支持雙階段處理優化細節

模型特點

專家集成流程

首階段基礎模型生成潛在特徵，第二階段專用優化模型精細化處理

雙文本編碼器

同時集成OpenCLIP和CLIP文本編碼器提升提示詞理解能力

高兼容性

支持獨立使用或配合優化器實現SDEdit技術增強

性能優化

支持torch.compile加速和CPU卸載等推理優化方案

模型能力

文本生成圖像

圖像細節優化

藝術風格創作

概念可視化

使用案例

創意設計

數字藝術創作

根據文字描述生成原創藝術作品

可生成多種風格的繪畫/插畫作品

概念設計

快速可視化產品/場景概念

加速設計流程的早期階段

教育研究

生成模型研究

用於擴散模型算法改進實驗

安全防護研究

分析生成內容的安全邊界

🚀 SD-XL 1.0-base模型卡片

SD-XL 1.0-base是一款基於擴散模型的文本到圖像生成模型，能夠根據文本提示生成和修改圖像。它採用了專家集成的潛在擴散管道，可獨立使用基礎模型，也可結合細化模型或高分辨率模型進行圖像生成。

row01

🚀 快速開始

安裝依賴

確保將diffusers升級到 >= 0.19.0：

pip install diffusers --upgrade

此外，還需安裝transformers、safetensors、accelerate以及invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

使用基礎模型

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# 如果使用torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

使用基礎模型 + 細化模型

from diffusers import DiffusionPipeline
import torch

# 加載基礎模型和細化模型
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# 定義步數和高噪聲比例
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# 運行基礎模型
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
# 運行細化模型
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

提高推理速度（torch >= 2.0）

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU顯存受限處理

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多關於使用diffusers運行Stable Diffusion XL的信息，請參考Stable Diffusion XL文檔。

✨ 主要特性

專家集成管道：採用專家集成的潛在擴散管道，先由基礎模型生成（有噪聲的）潛在變量，再由細化模型進行最終去噪處理。
多種使用方式：基礎模型可獨立使用，也可結合細化模型或高分辨率模型進行圖像生成。
支持多種框架：支持diffusers和Optimum框架，可結合OpenVINO和ONNX Runtime進行推理。

📦 安裝指南

安裝Optimum（OpenVINO）

pip install optimum[openvino]

安裝Optimum（ONNX Runtime）

pip install optimum[onnxruntime]

💻 使用示例

使用Optimum（OpenVINO）

- from diffusers import StableDiffusionXLPipeline
+ from optimum.intel import OVStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = OVStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

使用Optimum（ONNX）

- from diffusers import StableDiffusionXLPipeline
+ from optimum.onnxruntime import ORTStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = ORTStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

更多示例可參考Optimum 文檔。

📚 詳細文檔

模型

pipeline

SDXL採用了專家集成的潛在擴散管道：第一步，使用基礎模型生成（有噪聲的）潛在變量，然後使用專門用於最終去噪步驟的細化模型（可在https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/獲取）對其進行進一步處理。請注意，基礎模型可以作為獨立模塊使用。

或者，我們可以使用以下兩階段管道：首先，使用基礎模型生成所需輸出大小的潛在變量。第二步，使用專門的高分辨率模型，並對第一步生成的潛在變量應用一種稱為SDEdit（https://arxiv.org/abs/2108.01073，也稱為“img2img”）的技術，使用相同的提示。這種技術比第一種稍慢，因為它需要更多的函數評估。

源代碼可在https://github.com/Stability-AI/generative-models獲取。

模型描述

屬性	詳情
開發者	Stability AI
模型類型	基於擴散的文本到圖像生成模型
許可證	CreativeML Open RAIL++-M許可證
模型描述	這是一個可根據文本提示生成和修改圖像的模型。它是一個潛在擴散模型，使用兩個固定的預訓練文本編碼器（OpenCLIP-ViT/G和CLIP-ViT/L）。
更多信息資源	查看我們的GitHub倉庫和SDXL報告。

模型來源

出於研究目的，我們推薦使用generative-models GitHub倉庫（https://github.com/Stability-AI/generative-models），該倉庫實現了最流行的擴散框架（包括訓練和推理），並將逐步添加新功能，如蒸餾。 Clipdrop提供免費的SDXL推理。