controlnet-canny-sdxl-1.0开源图像生成模型 - 借Canny边缘检测精准控制图像输出

首页

Controlnet Canny Sdxl 1.0

由 diffusers 开发

基于Stable Diffusion XL训练的控制网络模型，通过Canny边缘检测实现精确图像生成控制

图像生成 #SDXL边缘控制 #图像精准生成 #建筑场景设计

下载量 13.17k

发布时间 : 8/1/2023

模型简介

该模型是基于Stable Diffusion XL训练的控制网络权重，专门用于通过Canny边缘检测条件来控制图像生成过程，实现更精确的图像构图控制。

模型特点

精确的边缘控制

通过Canny边缘检测算法提取图像轮廓，实现对生成图像构图的精确控制

高分辨率支持

支持1024像素以上的高分辨率图像生成，经过两阶段训练优化

与SDXL兼容

基于Stable Diffusion XL基础模型，保持其高质量的图像生成能力

模型能力

基于边缘检测的图像生成

高分辨率图像合成

精确构图控制

使用案例

创意设计

概念艺术创作

艺术家可以通过边缘草图控制生成细节丰富的概念艺术作品

如示例中的未来主义科研基地图像

产品设计

设计师可以基于简单轮廓生成高质量产品渲染图

摄影增强

照片级场景生成

基于边缘信息生成照片级真实感的场景

如示例中的情侣日落场景和女性街拍图像

胶片风格模拟

生成具有特定胶片风格(如柯达ektar100)的高质量图像

如示例中的女性街拍和龙卷风场景

🚀 SDXL-controlnet: Canny

SDXL-controlnet: Canny是基于Canny条件，在stabilityai/stable-diffusion-xl-base-1.0上训练得到的ControlNet权重。以下是一些示例图片：

示例图片

提示词	图片
a couple watching a romantic sunset, 4k photo
ultrarealistic shot of a furry blue bird
a woman, close up, detailed, beautiful, street photography, photorealistic, detailed, Kodak ektar 100, natural, candid shot
Cinematic, neoclassical table in the living room, cinematic, contour, lighting, highly detailed, winter, golden hour
a tornado hitting grass field, 1980's film grain. overcast, muted colors.

🚀 快速开始

安装依赖库

首先，你需要安装以下库：

pip install accelerate transformers safetensors opencv-python diffusers

运行示例代码

安装完成后，就可以运行以下代码：

from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image
from PIL import Image
import torch
import numpy as np
import cv2

prompt = "aerial view, a futuristic research complex in a bright foggy jungle, hard lighting"
negative_prompt = 'low quality, bad quality, sketches'

image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")

controlnet_conditioning_scale = 0.5  # recommended for good generalization

controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-canny-sdxl-1.0",
    torch_dtype=torch.float16
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    vae=vae,
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

image = np.array(image)
image = cv2.Canny(image, 100, 200)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

images = pipe(
    prompt, negative_prompt=negative_prompt, image=image, controlnet_conditioning_scale=controlnet_conditioning_scale,
    ).images

images[0].save(f"hug_lab.png")

images_10)

更多详细信息，请查看StableDiffusionXLControlNetPipeline的官方文档。

🔧 技术细节

训练脚本

我们的训练脚本基于此处提供的官方训练脚本构建。

训练数据

该检查点首先在调整为最大最小尺寸为384的laion 6a数据集上训练20,000步，然后在调整为最大最小尺寸为1024并过滤为仅包含最小尺寸为1024的图像的laion 6a数据集上再训练20,000步。我们发现进一步的高分辨率微调对于图像质量是必要的。

计算资源

使用一台配备8张A100显卡的机器。

批量大小

采用数据并行，单GPU批量大小为8，总批量大小为64。

超参数

恒定学习率为1e-4，按批量大小缩放后总学习率为64e-4。

混合精度

采用fp16。

📄 许可证

本项目采用OpenRail++许可证。

信息表格

属性	详情
模型类型	SDXL-controlnet: Canny
基础模型	runwayml/stable-diffusion-v1-5
训练数据	先在调整为最大最小尺寸为384的laion 6a数据集上训练20,000步，再在调整为最大最小尺寸为1024并过滤为仅包含最小尺寸为1024的图像的laion 6a数据集上训练20,000步
计算资源	一台配备8张A100显卡的机器
批量大小	单GPU批量大小为8，总批量大小为64
超参数	恒定学习率为1e-4，按批量大小缩放后总学习率为64e-4
混合精度	fp16
许可证	OpenRail++