🚀 SDXS-512-0.9
SDXS是一個能夠基於提示文本即時生成高分辨率圖像的模型,它採用分數蒸餾和特徵匹配技術進行訓練。更多信息請參考我們的研究論文:SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions。我們將該模型作為研究的一部分進行了開源。
🚀 快速開始
新版本推薦
使用面向社區的新版本:SDXS-512-DreamShaper。它具有更好的質量且速度更快。
舊版本說明
SDXS-512-0.9是SDXS-512的舊版本。為避免一些可能的商業和版權風險,SDXS-512-1.0和SDXS-1024-1.0不久後將不再提供,作為替代,我們將提供使用不同教師DM或離線DM的新版本。請關注我們的倉庫獲取最新更新。
✨ 主要特性
模型信息
與1.0版本的主要差異
- 此版本採用了TAESD,當weight_type為float16時,可能會生成低質量圖像。我們的圖像解碼器與當前版本的diffusers不兼容,因此目前不會提供。
- 此版本未進行實現細節部分提到的LoRA - GAN微調,這可能導致圖像細節稍遜一籌。
- 此版本在最高分辨率階段用交叉注意力替換了自注意力,與直接移除它們相比,引入的開銷極小。
💻 使用示例
基礎用法
import torch
from diffusers import StableDiffusionPipeline, AutoencoderKL
repo = "IDKiro/sdxs-512-0.9"
seed = 42
weight_type = torch.float32
pipe = StableDiffusionPipeline.from_pretrained(repo, torch_dtype=weight_type)
pipe.to("cuda")
prompt = "portrait photo of a girl, photograph, highly detailed face, depth of field, moody light, golden hour"
image = pipe(
prompt,
num_inference_steps=1,
guidance_scale=0,
generator=torch.Generator(device="cuda").manual_seed(seed)
).images[0]
image.save("output.png")
運行上述代碼後,會生成如下示例圖片:

📚 詳細文檔
引用我們的工作
如果您使用了本模型,請按照以下格式引用我們的論文:
@article{song2024sdxs,
author = {Yuda Song, Zehao Sun, Xuanwu Yin},
title = {SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions},
journal = {arxiv},
year = {2024},
}
📄 許可證
本模型採用OpenRAIL++許可證。