Stable Diffusion XL Refiner 1.0开源图像生成模型 - 提升SDXL基础图质量，优化去噪

首页

Stable Diffusion Xl Refiner 1.0

由 stabilityai 开发

SD-XL 1.0优化器模型是Stability AI开发的图像生成模型，专为提升SDXL基础模型生成的图像质量而设计，特别擅长最终去噪步骤处理。

图像生成 #双阶段图像增强 #专家集合扩散 #高分辨率优化

下载量 1.1M

发布时间 : 7/26/2023

模型简介

基于潜在扩散技术的图像优化模型，可与SDXL基础模型配合使用，通过深度处理提升生成图像的质量和细节表现。

模型特点

专家集合架构

采用基础模型与优化器协同工作的架构，基础模型负责初始生成，优化器专精最终去噪步骤

高质量图像生成

相比前代版本显著提升图像质量，用户偏好度测试表现优异

双阶段处理能力

支持直接优化基础模型输出，也可作为高分辨率处理阶段的SDEdit技术使用

模型能力

图像质量优化

细节增强

高分辨率图像处理

基于文本提示的图像修改

使用案例

创意设计

艺术创作辅助

帮助艺术家快速生成创意概念图

可生成风格多样的艺术作品

设计原型生成

为设计师提供快速可视化方案

加速设计流程

教育研究

生成模型研究

用于研究扩散模型的性能提升方法

🚀 SD-XL 1.0 精炼器模型卡片

SD-XL 1.0 精炼器模型是基于文本提示生成和修改图像的模型，它通过特定的潜在扩散管道，与基础模型配合，能生成高质量的图像，为图像生成领域的研究提供了强大的工具。

row01

🚀 快速开始

安装依赖

确保将 diffusers 升级到 >= 0.18.0：

pip install diffusers --upgrade

此外，还需安装 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

使用示例

基础用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高级用法

当使用 torch >= 2.0 时，可通过 torch.compile 提高推理速度 20 - 30%。在运行管道之前，只需用 torch.compile 包装 unet：

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

如果受 GPU 显存限制，可以通过调用 pipe.enable_model_cpu_offload 来启用 CPU 卸载，而不是使用 .to("cuda")：

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

如需了解更多高级用例，请查看文档。

✨ 主要特性

双阶段处理：结合基础模型和精炼模型，先由基础模型生成（有噪）潜在变量，再由精炼模型进行最终去噪处理，也可采用两阶段管道，使用专门的高分辨率模型和 SDEdit 技术。
多用途：可用于生成艺术作品、教育或创意工具、生成模型研究等多个领域。

📦 安装指南

依赖安装

确保将 diffusers 升级到 >= 0.18.0：

pip install diffusers --upgrade

此外，还需安装 transformers、safetensors、accelerate 以及 invisible_watermark：

pip install invisible_watermark transformers accelerate safetensors

📚 详细文档

模型

pipeline

SDXL 由用于潜在扩散的专家集成管道组成：第一步，使用基础模型（可在此处获取：https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0）生成（有噪）潜在变量，然后使用专门用于最终去噪步骤的精炼模型对其进行进一步处理。请注意，基础模型可以作为独立模块使用。

或者，我们可以使用如下两阶段管道：首先，使用基础模型生成所需输出大小的潜在变量。在第二步中，我们使用专门的高分辨率模型，并对第一步生成的潜在变量应用一种称为 SDEdit（https://arxiv.org/abs/2108.01073，也称为 “img2img”）的技术，使用相同的提示。这种技术比第一种稍慢，因为它需要更多的函数评估。

源代码可在 https://github.com/Stability-AI/generative-models 获取。

模型描述

属性	详情
开发方	Stability AI
模型类型	基于扩散的文本到图像生成模型
许可证	CreativeML Open RAIL++ - M 许可证
模型描述	这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用两个固定的预训练文本编码器（OpenCLIP - ViT/G 和 CLIP - ViT/L）。
更多信息资源	查看我们的 GitHub 仓库和 arXiv 上的 SDXL 报告。

模型来源

出于研究目的，我们推荐使用我们的 generative-models GitHub 仓库（https://github.com/Stability-AI/generative-models），该仓库实现了最流行的扩散框架（包括训练和推理），并且会随着时间的推移添加新的功能，如蒸馏。 Clipdrop 提供免费的 SDXL 推理。

属性	详情
仓库	https://github.com/Stability-AI/generative-models
演示	https://clipdrop.co/stable-diffusion

🔧 技术细节

评估

comparison 上图评估了用户对 SDXL（有和无精炼）相对于 SDXL 0.9 以及 Stable Diffusion 1.5 和 2.1 的偏好。SDXL 基础模型的表现明显优于之前的版本，而结合精炼模块的模型整体性能最佳。

📄 许可证

本模型使用 CreativeML Open RAIL++ - M 许可证。

💡 使用建议

当使用 torch >= 2.0 时，可通过 torch.compile 提高推理速度。
若受 GPU 显存限制，可启用 CPU 卸载功能。

⚠️ 重要提示

本模型仅用于研究目的。
模型未经过训练以真实反映人物或事件，因此使用该模型生成此类内容超出了其能力范围。
模型存在一定的局限性，如无法实现完美的照片写实、无法渲染清晰的文本、处理涉及组合性的复杂任务时存在困难、人脸和人物生成可能不准确以及自动编码部分存在信息损失等。同时，图像生成模型可能会强化或加剧社会偏见。