开源ControlNet v1.1 Canny边缘控制模型 - 基于Stable Diffusion精准调控图像生成

首页

Control V11p Sd15 Canny

由 frankjoshua 开发

ControlNet v1.1是基于Stable Diffusion的Canny边缘控制模型，通过添加边缘条件控制图像生成。

图像生成其他开源协议:Openrail #边缘控制生成 #图像结构保留 #艺术创作辅助

下载量 41

发布时间 : 7/27/2023

模型简介

该模型是ControlNet v1.0的继任者，专门针对Canny边缘检测条件训练，可与Stable Diffusion结合使用，实现基于边缘控制的图像生成。

模型特点

Canny边缘控制

通过Canny边缘检测图作为条件输入，精确控制生成图像的边缘结构

改进的训练数据

修复了v1.0版本中的训练数据问题，减少了灰度人像偏差和低质量图像

增强的鲁棒性

使用8块A100 GPU进行大规模训练，模型表现更加稳健

数据增强

训练中应用了随机左右翻转等数据增强技术

模型能力

基于边缘条件的图像生成

图像到图像转换

艺术创作辅助

结构保持的图像合成

使用案例

艺术创作

基于线稿上色

将手绘线稿转换为彩色艺术作品

保持原始线稿结构的同时添加色彩和细节

建筑可视化

根据建筑线稿生成逼真渲染图

精确保持建筑结构的同时添加材质和环境

设计辅助

产品设计

根据产品轮廓图生成多角度渲染

保持产品基本结构的同时探索不同设计方案

🚀 Controlnet - v1.1 - Canny版本

Controlnet v1.1是一款强大的图像生成控制模型，它通过添加额外条件来控制扩散模型，能与Stable Diffusion结合，实现如边缘图、分割图等条件输入，为图像生成带来更多可能性。

🚀 快速开始

Controlnet v1.1是Controlnet v1.0的后续模型，由Lvmin Zhang在lllyasviel/ControlNet-v1-1中发布。此检查点是将原始检查点转换为diffusers格式，可与Stable Diffusion（如runwayml/stable-diffusion-v1-5）结合使用。

更多详情请查看🧨 Diffusers文档。

ControlNet是一种神经网络结构，通过添加额外条件来控制扩散模型。

此检查点对应基于Canny边缘的ControlNet。

✨ 主要特性

灵活控制：能控制预训练的大型扩散模型，支持额外输入条件，如边缘图、分割图、关键点等。
高效训练：学习特定任务条件时端到端，即使训练数据集小（< 50k）也很稳健，训练速度快，可在个人设备上进行。
可扩展性强：若有强大计算集群，可处理大量（数百万到数十亿）数据。

📦 安装指南

若要处理图像以创建辅助条件，需要安装以下外部依赖：

安装opencv：

$ pip install opencv-contrib-python

安装diffusers及相关包：

$ pip install diffusers transformers accelerate

💻 使用示例

基础用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
import numpy as np
import cv2
from PIL import Image

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_canny"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_canny/resolve/main/images/input.png"
)

image = np.array(image)

low_threshold = 100
high_threshold = 200

image = cv2.Canny(image, low_threshold, high_threshold)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
control_image = Image.fromarray(image)

control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(33)
image = pipe("a blue paradise bird in the jungle", num_inference_steps=20, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

高级用法

建议将此检查点与Stable Diffusion v1-5配合使用，因为该检查点是基于此训练的。实验表明，此检查点也可与其他扩散模型（如经过微调的Stable Diffusion）结合使用。

bird

bird_canny

bird_canny_out

📚 详细文档

模型详情

属性	详情
开发者	Lvmin Zhang, Maneesh Agrawala
模型类型	基于扩散的文本到图像生成模型
语言	英语
许可证	CreativeML OpenRAIL M许可证是一种 Open RAIL M许可证，改编自 BigScience 和 RAIL倡议在负责任AI许可领域的工作。详情见关于BLOOM Open RAIL许可证的文章，本许可证基于此。
更多信息资源	GitHub仓库，论文
引用格式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

模型介绍

Controlnet由Lvmin Zhang和Maneesh Agrawala在Adding Conditional Control to Text-to-Image Diffusion Models中提出。

摘要如下：我们提出了一种神经网络结构ControlNet，用于控制预训练的大型扩散模型，以支持额外输入条件。ControlNet以端到端的方式学习特定任务条件，即使训练数据集小（< 50k），学习过程也很稳健。此外，训练ControlNet的速度与微调扩散模型相当，且可在个人设备上进行训练。或者，若有强大的计算集群，模型可处理大量（数百万到数十亿）数据。我们发现，像Stable Diffusion这样的大型扩散模型可以与ControlNets结合，实现如边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法，并进一步推动相关应用的发展。

其他发布的检查点v1 - 1

作者发布了14种不同的检查点，每种都基于Stable Diffusion v1 - 5在不同类型的条件下进行训练：

模型名称	控制图像概述	条件图像
lllyasviel/control_v11p_sd15_canny	使用Canny边缘检测训练	黑色背景上带有白色边缘的单色图像。
lllyasviel/control_v11e_sd15_ip2p	使用像素到像素指令训练	无条件。
lllyasviel/control_v11p_sd15_inpaint	使用图像修复训练	无条件。
lllyasviel/control_v11p_sd15_mlsd	使用多级线段检测训练	带有注释线段的图像。
lllyasviel/control_v11f1p_sd15_depth	使用深度估计训练	带有深度信息的图像，通常表示为灰度图像。
lllyasviel/control_v11p_sd15_normalbae	使用表面法线估计训练	带有表面法线信息的图像，通常表示为彩色编码图像。
lllyasviel/control_v11p_sd15_seg	使用图像分割训练	带有分割区域的图像，通常表示为彩色编码图像。
lllyasviel/control_v11p_sd15_lineart	使用线稿生成训练	带有线稿的图像，通常是白色背景上的黑色线条。
lllyasviel/control_v11p_sd15s2_lineart_anime	使用动漫线稿生成训练	带有动漫风格线稿的图像。
lllyasviel/control_v11p_sd15_openpose	使用人体姿态估计训练	带有人体姿态的图像，通常表示为一组关键点或骨架。
lllyasviel/control_v11p_sd15_scribble	使用基于涂鸦的图像生成训练	带有涂鸦的图像，通常是随机或用户绘制的笔触。
lllyasviel/control_v11p_sd15_softedge	使用软边缘图像生成训练	带有软边缘的图像，通常用于创建更具绘画感或艺术效果的图像。
lllyasviel/control_v11e_sd15_shuffle	使用图像打乱训练	带有打乱补丁或区域的图像。
lllyasviel/control_v11f1e_sd15_tile	使用图像平铺训练	模糊图像或图像的一部分。

Canny 1.1的改进

数据集优化：之前的cnet 1.0训练数据集存在一些问题，包括（1）一小部分灰度人体图像被重复了数千次，导致之前的模型有些容易生成灰度人体图像；（2）一些图像质量低、非常模糊或有明显的JPEG伪影；（3）一小部分图像由于数据处理脚本的错误而存在错误的配对提示。新模型解决了训练数据集的所有问题，在很多情况下应该更加合理。
强大训练资源：由于Canny模型是最重要（可能是最常用）的ControlNet之一，我们投入资金在一台配备8个Nvidia A100 80G的机器上以批量大小8×32 = 256训练了3天，花费了72×30 = 2160美元（8个A100 80G，每小时30美元）。该模型是在Canny 1.0的基础上继续训练的。
数据增强：在训练中应用了一些合理的数据增强方法，如随机左右翻转。
性能提升：虽然很难评估一个ControlNet，但我们发现Canny 1.1比Canny 1.0更稳健，视觉质量也略高。