🚀 SDXS-512-0.9
SDXS是一个能够基于提示文本实时生成高分辨率图像的模型,它采用分数蒸馏和特征匹配技术进行训练。更多信息请参考我们的研究论文:SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions。我们将该模型作为研究的一部分进行了开源。
🚀 快速开始
新版本推荐
使用面向社区的新版本:SDXS-512-DreamShaper。它具有更好的质量且速度更快。
旧版本说明
SDXS-512-0.9是SDXS-512的旧版本。为避免一些可能的商业和版权风险,SDXS-512-1.0和SDXS-1024-1.0不久后将不再提供,作为替代,我们将提供使用不同教师DM或离线DM的新版本。请关注我们的仓库获取最新更新。
✨ 主要特性
模型信息
与1.0版本的主要差异
- 此版本采用了TAESD,当weight_type为float16时,可能会生成低质量图像。我们的图像解码器与当前版本的diffusers不兼容,因此目前不会提供。
- 此版本未进行实现细节部分提到的LoRA - GAN微调,这可能导致图像细节稍逊一筹。
- 此版本在最高分辨率阶段用交叉注意力替换了自注意力,与直接移除它们相比,引入的开销极小。
💻 使用示例
基础用法
import torch
from diffusers import StableDiffusionPipeline, AutoencoderKL
repo = "IDKiro/sdxs-512-0.9"
seed = 42
weight_type = torch.float32
pipe = StableDiffusionPipeline.from_pretrained(repo, torch_dtype=weight_type)
pipe.to("cuda")
prompt = "portrait photo of a girl, photograph, highly detailed face, depth of field, moody light, golden hour"
image = pipe(
prompt,
num_inference_steps=1,
guidance_scale=0,
generator=torch.Generator(device="cuda").manual_seed(seed)
).images[0]
image.save("output.png")
运行上述代码后,会生成如下示例图片:

📚 详细文档
引用我们的工作
如果您使用了本模型,请按照以下格式引用我们的论文:
@article{song2024sdxs,
author = {Yuda Song, Zehao Sun, Xuanwu Yin},
title = {SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions},
journal = {arxiv},
year = {2024},
}
📄 许可证
本模型采用OpenRAIL++许可证。