Stable Diffusion XL开源图像生成模型 - 免费部署生成并细化高质量图像

首页

Stable Diffusion Xl Refiner 1.0 With Endpoint Handler

由 karimbenharrak 开发

SDXL是基于专家集合的潜在扩散模型，包含基础模型和优化模型两阶段流程，可生成高质量图像并进行细化处理

图像生成 #双阶段图像生成 #高分辨率优化 #潜在扩散模型

下载量 46

发布时间 : 3/14/2024

模型简介

该模型是基于双文本编码器的潜在扩散模型，可根据文本提示生成并修改图像，特别擅长通过优化阶段提升图像质量

模型特点

双阶段生成流程

采用基础模型生成初始图像后，通过专门优化模型进行精细化处理，显著提升图像质量

SDEdit技术集成

在高分辨率阶段应用SDEdit技术，保持原始提示词的同时优化图像细节

多文本编码器支持

整合OpenCLIP-ViT/G和CLIP-ViT/L双文本编码器，增强文本理解能力

模型能力

文本到图像生成

图像到图像转换

图像质量优化

艺术创作

设计辅助

使用案例

创意设计

艺术作品生成

根据文本描述自动生成各类风格的艺术作品

可生成多种艺术风格的图像

概念设计

快速生成产品、场景或角色的概念设计图

加速设计流程，提供创意灵感

教育研究

教学素材生成

为教育场景创建可视化教学素材

丰富教学资源，提高教学效果

生成模型研究

用于扩散模型相关技术的研究与开发

推动生成模型技术进步

🚀 SD-XL 1.0 精炼器模型卡片

SD-XL 1.0 精炼器模型是基于文本提示生成和修改图像的强大工具，通过独特的潜在扩散管道，能生成高质量的图像，在图像生成领域具有重要的研究价值。

🚀 快速开始

安装依赖

确保将 diffusers 升级到 >= 0.18.0：

pip install diffusers --upgrade

此外，还需安装 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

使用精炼器改进图像

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

提升推理速度

当使用 torch >= 2.0 时，可通过 torch.compile 提升 20 - 30% 的推理速度。在运行管道前，用 torch.compile 包装 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

处理 GPU 显存限制

若受限于 GPU 显存，可调用 pipe.enable_model_cpu_offload 启用 CPU 卸载，而非使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

更多高级用例，请查看文档。

✨ 主要特性

集成专家管道：SDXL 采用集成专家管道进行潜在扩散。先由基础模型生成（有噪声的）潜在变量，再由精炼模型进行最终去噪处理。基础模型也可单独使用。
两阶段管道可选：可先使用基础模型生成所需输出大小的潜在变量，再使用专门的高分辨率模型和 SDEdit 技术（https://arxiv.org/abs/2108.01073，即“img2img”）对潜在变量进行处理。

📦 安装指南

升级 `diffusers`

pip install diffusers --upgrade

安装其他依赖

pip install invisible_watermark transformers accelerate safetensors

💻 使用示例

基础用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高级用法

当使用 torch >= 2.0 时，可通过 torch.compile 提升推理速度：

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

📚 详细文档

模型

pipeline

SDXL 由用于潜在扩散的集成专家管道组成：第一步，使用基础模型（可在 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 获取）生成（有噪声的）潜在变量，然后使用专门的精炼模型对其进行最终去噪处理。需注意，基础模型可单独使用。

另外，也可使用两阶段管道：首先，使用基础模型生成所需输出大小的潜在变量。第二步，使用专门的高分辨率模型，并对第一步生成的潜在变量应用 SDEdit 技术（https://arxiv.org/abs/2108.01073，也称为“img2img”），使用相同的提示。此技术比第一种稍慢，因为需要更多的函数评估。

源代码可在 https://github.com/Stability-AI/generative-models 获取。

模型描述

属性	详情
开发者	Stability AI
模型类型	基于扩散的文本到图像生成模型
许可证	CreativeML Open RAIL++ - M 许可证
模型描述	这是一个可根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器（OpenCLIP - ViT/G 和 CLIP - ViT/L）。
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的 SDXL 报告。

模型来源

出于研究目的，推荐使用我们的 generative-models GitHub 仓库（https://github.com/Stability-AI/generative-models），该仓库实现了最流行的扩散框架（包括训练和推理），并会逐步添加新功能，如蒸馏。 Clipdrop 提供免费的 SDXL 推理。