オープンソースControlNet v1.1 Cannyエッジ制御モデル - Stable Diffusionに基づく画像生成の高精度制御

ホーム

Control V11p Sd15 Canny

frankjoshuaによって開発

ControlNet v1.1はStable Diffusionを基にしたCannyエッジ制御モデルで、エッジ条件を追加して画像生成を制御します。

画像生成その他オープンソースライセンス:Openrail #エッジ制御生成 #画像構造保持 #アート創作支援

ダウンロード数 41

リリース時間 : 7/27/2023

モデル概要

このモデルはControlNet v1.0の後継で、Cannyエッジ検出条件に特化して訓練されており、Stable Diffusionと組み合わせてエッジ制御に基づく画像生成を実現します。

モデル特徴

Cannyエッジ制御

Cannyエッジ検出図を条件入力として使用し、生成画像のエッジ構造を精密に制御

改善された訓練データ

v1.0バージョンの訓練データ問題を修正し、グレースケールポートレートの偏りや低品質画像を削減

強化された頑健性

8台のA100 GPUを使用した大規模訓練により、モデルのパフォーマンスがより安定

データ拡張

訓練中にランダムな左右反転などのデータ拡張技術を適用

モデル能力

エッジ条件に基づく画像生成

画像から画像への変換

アート創作支援

構造保持型画像合成

使用事例

アート創作

線画に基づく彩色

手描き線画をカラーアート作品に変換

元の線画構造を保持しながら色彩と詳細を追加

建築ビジュアライゼーション

建築線画からリアルなレンダリングを生成

建築構造を正確に保持しながら材質と環境を追加

デザイン支援

製品デザイン

製品輪郭図から多角度レンダリングを生成

製品基本構造を保持しながら異なるデザイン案を探索

🚀 Controlnet - v1.1 - Canny Version

Controlnet v1.1は、拡散モデルに追加条件を加えることで制御するニューラルネットワーク構造です。このモデルは、画像生成における条件付き入力を可能にし、エッジマップやセグメンテーションマップなどの入力に対応します。

🚀 クイックスタート

Controlnet v1.1 は Controlnet v1.0 の後継モデルで、Lvmin Zhang によって lllyasviel/ControlNet-v1-1 で公開されました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したものです。Stable Diffusion と組み合わせて使用でき、例えば runwayml/stable-diffusion-v1-5 と一緒に使うことができます。

詳細については、🧨 Diffusers のドキュメントも参照してください。

ControlNetは、追加の入力条件をサポートするために事前学習された大規模拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、Cannyエッジを条件としたControlNetに対応しています。

✨ 主な機能

拡散モデルに追加条件を加えて制御することができます。
エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力をサポートします。
学習が高速で、個人のデバイスでもトレーニング可能です。

📦 インストール

外部依存関係のインストール

opencv をインストールします。

$ pip install opencv-contrib-python

diffusers と関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
import numpy as np
import cv2
from PIL import Image

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_canny"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_canny/resolve/main/images/input.png"
)

image = np.array(image)

low_threshold = 100
high_threshold = 200

image = cv2.Canny(image, low_threshold, high_threshold)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
control_image = Image.fromarray(image)

control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(33)
image = pipe("a blue paradise bird in the jungle", num_inference_steps=20, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

注意事項

⚠️ 重要提示

画像を処理して補助条件を作成する場合、上記のように外部依存関係が必要です。

💡 使用建议

このチェックポイントは Stable Diffusion v1-5 でトレーニングされているため、これと一緒に使用することをお勧めします。実験的に、他の拡散モデル（dreamboothed stable diffusion など）とも使用できます。

📚 ドキュメント

モデル詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license で、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、学習データセットが小さい場合（< 50k）でもロバストです。さらに、ControlNetのトレーニングは拡散モデルのファインチューニングと同じくらい速く、個人のデバイスでもトレーニングできます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールできます。Stable Diffusionのような大規模拡散モデルは、ControlNetで拡張することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできます。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

他の公開されたチェックポイント v1-1

著者らは、Stable Diffusion v1-5 でそれぞれ異なるタイプの条件付きでトレーニングされた14の異なるチェックポイントを公開しています。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出でトレーニング	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示でトレーニング	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像のインペイントでトレーニング	条件なし。
lllyasviel/control_v11p_sd15_mlsd	多レベルの線分検出でトレーニング	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定でトレーニング	深度情報がある画像、通常はグレースケール画像で表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定でトレーニング	表面法線情報がある画像、通常は色分けされた画像で表されます。
lllyasviel/control_v11p_sd15_seg	画像のセグメンテーションでトレーニング	セグメント化された領域がある画像、通常は色分けされた画像で表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成でトレーニング	ラインアートがある画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成でトレーニング	アニメスタイルのラインアートがある画像。
lllyasviel/control_v11p_sd15_openpose	人体ポーズ推定でトレーニング	人体ポーズがある画像、通常はキーポイントまたはスケルトンのセットで表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成でトレーニング	スクリブルがある画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成でトレーニング	ソフトエッジがある画像、通常はより絵画的またはアート的な効果を作成するためのものです。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルでトレーニング	パッチまたは領域がシャッフルされた画像。
lllyasviel/control_v11f1e_sd15_tile	画像タイリングでトレーニング	ぼやけた画像または画像の一部。