sdxs-512-0.9开源图像生成模型 - 依据提示实时产出高清图像

首页

Sdxs 512 0.9

由 IDKiro 开发

基于提示文本实时生成高清图像的扩散模型，采用分数蒸馏与特征匹配技术训练而成

图像生成 #一步生成图像 #实时高清渲染 #文本驱动创作

下载量 534

发布时间 : 3/25/2024

模型简介

SDXS是一款支持图像条件的实时一步潜在扩散模型，能够根据文本提示快速生成高质量图像。

模型特点

实时生成

支持一步推理快速生成图像

高质量输出

采用分数蒸馏与特征匹配技术，生成高清图像

技术优化

使用交叉注意力替代自注意力机制，仅引入极小开销

模型能力

文本到图像生成

实时图像合成

高质量视觉内容创作

使用案例

创意设计

肖像创作

根据文本描述生成专业级人物肖像

示例展示了具有高度细节的面部特征和戏剧性光影效果

概念艺术

快速可视化创意概念

内容生产

社交媒体内容

快速生成视觉内容用于社交媒体

🚀 SDXS-512-0.9

SDXS是一个能够基于提示文本实时生成高分辨率图像的模型，它采用分数蒸馏和特征匹配技术进行训练。更多信息请参考我们的研究论文：SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions。我们将该模型作为研究的一部分进行了开源。

🚀 快速开始

新版本推荐

使用面向社区的新版本：SDXS-512-DreamShaper。它具有更好的质量且速度更快。

旧版本说明

SDXS-512-0.9是SDXS-512的旧版本。为避免一些可能的商业和版权风险，SDXS-512-1.0和SDXS-1024-1.0不久后将不再提供，作为替代，我们将提供使用不同教师DM或离线DM的新版本。请关注我们的仓库获取最新更新。

✨ 主要特性

模型信息

属性	详情
教师DM	SD Turbo
离线DM	SD v2.1 base
VAE	TAESD

与1.0版本的主要差异

此版本采用了TAESD，当weight_type为float16时，可能会生成低质量图像。我们的图像解码器与当前版本的diffusers不兼容，因此目前不会提供。
此版本未进行实现细节部分提到的LoRA - GAN微调，这可能导致图像细节稍逊一筹。
此版本在最高分辨率阶段用交叉注意力替换了自注意力，与直接移除它们相比，引入的开销极小。

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusionPipeline, AutoencoderKL

repo = "IDKiro/sdxs-512-0.9"
seed = 42
weight_type = torch.float32     # or float16

# Load model.
pipe = StableDiffusionPipeline.from_pretrained(repo, torch_dtype=weight_type)

# use original VAE
# pipe.vae = AutoencoderKL.from_pretrained("IDKiro/sdxs-512-0.9/vae_large")
 
pipe.to("cuda")

prompt = "portrait photo of a girl, photograph, highly detailed face, depth of field, moody light, golden hour"

# Ensure using 1 inference step and CFG set to 0.
image = pipe(
    prompt, 
    num_inference_steps=1, 
    guidance_scale=0,
    generator=torch.Generator(device="cuda").manual_seed(seed)
).images[0]

image.save("output.png")

运行上述代码后，会生成如下示例图片：

📚 详细文档

引用我们的工作

如果您使用了本模型，请按照以下格式引用我们的论文：

@article{song2024sdxs,
  author    = {Yuda Song, Zehao Sun, Xuanwu Yin},
  title     = {SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions},
  journal   = {arxiv},
  year      = {2024},
}