sdxs-512-0.9開源圖像生成模型 - 依據提示即時產出高清圖像

首頁

Sdxs 512 0.9

由IDKiro開發

基於提示文本即時生成高清圖像的擴散模型，採用分數蒸餾與特徵匹配技術訓練而成

圖像生成 #一步生成圖像 #即時高清渲染 #文本驅動創作

下載量 534

發布時間 : 3/25/2024

模型概述

SDXS是一款支持圖像條件的即時一步潛在擴散模型，能夠根據文本提示快速生成高質量圖像。

模型特點

即時生成

支持一步推理快速生成圖像

高質量輸出

採用分數蒸餾與特徵匹配技術，生成高清圖像

技術優化

使用交叉注意力替代自注意力機制，僅引入極小開銷

模型能力

文本到圖像生成

即時圖像合成

高質量視覺內容創作

使用案例

創意設計

肖像創作

根據文本描述生成專業級人物肖像

示例展示了具有高度細節的面部特徵和戲劇性光影效果

概念藝術

快速可視化創意概念

內容生產

社交媒體內容

快速生成視覺內容用於社交媒體

🚀 SDXS-512-0.9

SDXS是一個能夠基於提示文本即時生成高分辨率圖像的模型，它採用分數蒸餾和特徵匹配技術進行訓練。更多信息請參考我們的研究論文：SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions。我們將該模型作為研究的一部分進行了開源。

🚀 快速開始

新版本推薦

使用面向社區的新版本：SDXS-512-DreamShaper。它具有更好的質量且速度更快。

舊版本說明

SDXS-512-0.9是SDXS-512的舊版本。為避免一些可能的商業和版權風險，SDXS-512-1.0和SDXS-1024-1.0不久後將不再提供，作為替代，我們將提供使用不同教師DM或離線DM的新版本。請關注我們的倉庫獲取最新更新。

✨ 主要特性

模型信息

屬性	詳情
教師DM	SD Turbo
離線DM	SD v2.1 base
VAE	TAESD

與1.0版本的主要差異

此版本採用了TAESD，當weight_type為float16時，可能會生成低質量圖像。我們的圖像解碼器與當前版本的diffusers不兼容，因此目前不會提供。
此版本未進行實現細節部分提到的LoRA - GAN微調，這可能導致圖像細節稍遜一籌。
此版本在最高分辨率階段用交叉注意力替換了自注意力，與直接移除它們相比，引入的開銷極小。

💻 使用示例

基礎用法

import torch
from diffusers import StableDiffusionPipeline, AutoencoderKL

repo = "IDKiro/sdxs-512-0.9"
seed = 42
weight_type = torch.float32     # or float16

# Load model.
pipe = StableDiffusionPipeline.from_pretrained(repo, torch_dtype=weight_type)

# use original VAE
# pipe.vae = AutoencoderKL.from_pretrained("IDKiro/sdxs-512-0.9/vae_large")
 
pipe.to("cuda")

prompt = "portrait photo of a girl, photograph, highly detailed face, depth of field, moody light, golden hour"

# Ensure using 1 inference step and CFG set to 0.
image = pipe(
    prompt, 
    num_inference_steps=1, 
    guidance_scale=0,
    generator=torch.Generator(device="cuda").manual_seed(seed)
).images[0]

image.save("output.png")

運行上述代碼後，會生成如下示例圖片：

📚 詳細文檔

引用我們的工作

如果您使用了本模型，請按照以下格式引用我們的論文：

@article{song2024sdxs,
  author    = {Yuda Song, Zehao Sun, Xuanwu Yin},
  title     = {SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions},
  journal   = {arxiv},
  year      = {2024},
}