sd-controlnet-canny開源圖像生成模型 - 用Canny邊緣檢測精準把控圖像生成

首頁

Sd Controlnet Canny

由lllyasviel開發

ControlNet是一種通過Canny邊緣檢測條件控制Stable Diffusion生成圖像的神經網絡結構

圖像生成其他開源協議:Openrail #邊緣控制生成 #藝術風格遷移 #圖像條件擴散

下載量 190.44k

發布時間 : 2/24/2023

模型概述

該模型基於Stable Diffusion v1-5，通過Canny邊緣圖作為額外輸入條件，實現對圖像生成過程的精確控制。適用於藝術創作、設計輔助等場景。

模型特點

邊緣條件控制

通過黑白邊緣圖（白邊黑底）精確控制生成圖像的構圖和輪廓

小數據訓練

能在小於5萬樣本的小數據集上穩健學習，訓練速度與微調擴散模型相當

設備兼容性

支持在個人設備上完成訓練，也可擴展至計算集群處理大規模數據

模型能力

基於邊緣圖的圖像生成

藝術風格轉換

圖像結構控制

與Stable Diffusion v1-5兼容

使用案例

藝術創作

名畫風格轉換

將邊緣圖轉換為《戴珍珠耳環的少女》等經典藝術風格

保持原始構圖的同時應用目標藝術風格

設計輔助

線稿上色

基於手繪線稿生成完整彩色圖像

生成符合線稿結構的逼真或風格化圖像

🚀 Controlnet - Canny版本

ControlNet是一種神經網絡結構，可通過添加額外條件來控制擴散模型。此檢查點對應於基於Canny邊緣的ControlNet，可與Stable Diffusion結合使用。

🚀 快速開始

本項目的ControlNet模型可與Stable Diffusion結合使用，以下是使用該模型生成圖像的快速開始步驟：

安裝必要的依賴庫，如opencv、diffusers等。
運行示例代碼，即可根據輸入的圖像和提示詞生成圖像。

✨ 主要特性

條件控制：ControlNet能夠為預訓練的大型擴散模型添加額外的輸入條件，如邊緣圖、分割圖、關鍵點等，從而實現對圖像生成過程的精細控制。
高效訓練：訓練ControlNet的速度與微調擴散模型相當，即使在小數據集（少於50k）上也能實現穩健學習，並且可以在個人設備上進行訓練。
多模型適配：該模型可以與多種擴散模型結合使用，如Stable Diffusion，具有良好的通用性和擴展性。

📦 安裝指南

若要使用本模型，需要安裝一些外部依賴庫：

安裝opencv：

$ pip install opencv-contrib-python

安裝diffusers及相關包：

$ pip install diffusers transformers accelerate

💻 使用示例

基礎用法

import cv2
from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
import numpy as np
from diffusers.utils import load_image

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-hed/resolve/main/images/bird.png")
image = np.array(image)

low_threshold = 100
high_threshold = 200

image = cv2.Canny(image, low_threshold, high_threshold)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-canny", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("bird", image, num_inference_steps=20).images[0]

image.save('images/bird_canny_out.png')

高級用法

示例代碼展示瞭如何使用Canny邊緣檢測生成圖像，你可以根據需要調整輸入圖像、提示詞和模型參數，以實現不同的圖像生成效果。

📚 詳細文檔

模型詳情

開發者：Lvmin Zhang, Maneesh Agrawala
模型類型：基於擴散的文本到圖像生成模型
語言：英文
許可證：The CreativeML OpenRAIL M license 是一種 Open RAIL M license，改編自 BigScience 和 the RAIL Initiative 在負責任的AI許可領域的聯合工作。有關許可證的詳細信息，請參閱關於BLOOM Open RAIL許可證的文章。
更多信息資源：GitHub倉庫，論文。
引用格式：

@misc{zhang2023adding,
    title={Adding Conditional Control to Text-to-Image Diffusion Models}, 
    author={Lvmin Zhang and Maneesh Agrawala},
    year={2023},
    eprint={2302.05543},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

模型介紹

Controlnet由Lvmin Zhang和Maneesh Agrawala在論文 Adding Conditional Control to Text-to-Image Diffusion Models 中提出。論文摘要如下：

我們提出了一種神經網絡結構ControlNet，用於控制預訓練的大型擴散模型，以支持額外的輸入條件。ControlNet能夠以端到端的方式學習特定任務的條件，即使在訓練數據集較小（少於50k）的情況下，學習過程也很穩健。此外，訓練ControlNet的速度與微調擴散模型相當，並且可以在個人設備上進行訓練。如果有強大的計算集群，該模型也可以處理大量（數百萬到數十億）的數據。我們發現，像Stable Diffusion這樣的大型擴散模型可以通過ControlNet進行增強，以支持邊緣圖、分割圖、關鍵點等條件輸入。這可能會豐富控制大型擴散模型的方法，並進一步推動相關應用的發展。

發佈的檢查點

作者發佈了8種不同的檢查點，每種檢查點都基於 Stable Diffusion v1-5 在不同類型的條件下進行訓練：

模型名稱	控制圖像概述	控制圖像示例	生成圖像示例
lllyasviel/sd-controlnet-canny 基於Canny邊緣檢測訓練	黑色背景上帶有白色邊緣的單色圖像。
lllyasviel/sd-controlnet-depth 基於Midas深度估計訓練	黑色代表深區域，白色代表淺區域的灰度圖像。
lllyasviel/sd-controlnet-hed 基於HED邊緣檢測（軟邊緣）訓練	黑色背景上帶有白色軟邊緣的單色圖像。
lllyasviel/sd-controlnet-mlsd 基於M-LSD線檢測訓練	黑色背景上僅由白色直線組成的單色圖像。
lllyasviel/sd-controlnet-normal 基於法線貼圖訓練	法線貼圖圖像。
lllyasviel/sd-controlnet_openpose 基於OpenPose骨骼圖像訓練	OpenPose骨骼圖像。
lllyasviel/sd-controlnet_scribble 基於人工塗鴉訓練	黑色背景上帶有白色輪廓的手繪單色圖像。
lllyasviel/sd-controlnet_seg 基於語義分割訓練	ADE20K 的分割協議圖像。

訓練信息

Canny邊緣模型在300萬個邊緣圖像-標題對的數據集上進行訓練。該模型以Stable Diffusion 1.5為基礎模型，使用Nvidia A100 80G GPU進行了600小時的訓練。

博客文章

如需瞭解更多信息，請查看 ControlNet官方博客文章。

🔧 技術細節

本項目的Canny邊緣模型基於Stable Diffusion 1.5進行訓練，通過添加額外的ControlNet結構，實現對圖像生成過程的條件控制。模型在訓練過程中使用了大量的邊緣圖像-標題對數據，以學習不同邊緣特徵與圖像生成之間的關係。在推理階段，模型可以根據輸入的圖像和提示詞，生成具有特定邊緣特徵的圖像。