sd-controlnet-cannyオープンソース画像生成モデル - Cannyエッジ検出で画像生成を精確にコントロール

ホーム

Sd Controlnet Canny

lllyasvielによって開発

ControlNetはCannyエッジ検出条件を用いてStable Diffusionの画像生成を制御するニューラルネットワーク構造です

画像生成その他オープンソースライセンス:Openrail #エッジ制御生成 #アートスタイル転送 #画像条件拡散

ダウンロード数 190.44k

リリース時間 : 2/24/2023

モデル概要

このモデルはStable Diffusion v1-5をベースに、追加入力条件としてCannyエッジマップを使用し、画像生成プロセスを精密に制御します。アート創作やデザイン補助などのシナリオに適しています。

モデル特徴

エッジ条件制御

白黒エッジマップ（白線黒背景）で生成画像の構図と輪郭を精密に制御

少量データ学習

5万サンプル未満の小規模データセットでも安定して学習可能で、拡散モデルの微調整と同等の学習速度

デバイス互換性

個人デバイスでの学習が可能で、計算クラスターへの拡張も可能

モデル能力

エッジマップに基づく画像生成

アートスタイル変換

画像構造制御

Stable Diffusion v1-5との互換性

使用事例

アート創作

名画スタイル変換

エッジマップを『真珠の耳飾りの少女』などの古典芸術スタイルに変換

元の構図を保持しながら対象の芸術スタイルを適用

デザイン補助

線画着色

手描き線画から完全なカラー画像を生成

線画構造に合ったリアルまたはスタイライズされた画像を生成

🚀 Controlnet - Canny Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、Cannyエッジを条件としたControlNetに対応しています。 Stable Diffusionと組み合わせて使用することができます。

✨ 主な機能

ControlNetは、追加の入力条件をサポートするために事前学習された大規模拡散モデルを制御するニューラルネットワーク構造です。このモデルは、特定のタスク条件をエンドツーエンドで学習し、訓練データセットが小さい場合でもロバストな学習が可能です。

📦 インストール

サンプルコードを実行するには、以下の依存関係をインストールする必要があります。

opencvのインストール

$ pip install opencv-contrib-python

diffusersと関連パッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import cv2
from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
import numpy as np
from diffusers.utils import load_image

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-hed/resolve/main/images/bird.png")
image = np.array(image)

low_threshold = 100
high_threshold = 200

image = cv2.Canny(image, low_threshold, high_threshold)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-canny", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("bird", image, num_inference_steps=20).images[0]

image.save('images/bird_canny_out.png')

生成された画像の例

bird bird_canny bird_canny_out

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野での作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
詳細情報リソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、訓練データセットが小さい場合（< 50k）でも学習がロバストです。さらに、ControlNetを訓練するのは拡散モデルを微調整するのと同じくらい速く、モデルは個人用デバイスで訓練することができます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールすることができます。私たちは、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告しています。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

公開されたチェックポイント

著者らは、Stable Diffusion v1-5 をベースに、異なるタイプの条件付きで訓練された8つの異なるチェックポイントを公開しています。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/sd-controlnet-canny Cannyエッジ検出で訓練	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-depth Midas深度推定で訓練	黒が深い領域、白が浅い領域を表すグレースケール画像。
lllyasviel/sd-controlnet-hed HEDエッジ検出（ソフトエッジ）で訓練	黒い背景に白いソフトエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-mlsd M-LSD線検出で訓練	黒い背景に白い直線のみで構成されたモノクロ画像。
lllyasviel/sd-controlnet-normal 法線マップで訓練	法線マッピングされた画像。
lllyasviel/sd-controlnet_openpose OpenPose骨格画像で訓練	OpenPose骨格画像。
lllyasviel/sd-controlnet_scribble 人間のスクラッチで訓練	黒い背景に白い輪郭の手書きモノクロ画像。
lllyasviel/sd-controlnet_seg セマンティックセグメンテーションで訓練	ADE20K のセグメンテーションプロトコル画像。