ControlNet v1.1オープンソースモデル - 深度画像を活用した高精度なStable Diffusion画像生成制御

ホーム

Control V11f1p Sd15 Depth

lllyasvielによって開発

ControlNet v1.1 は ControlNet v1.0 の後継モデルで、深度画像条件を追加することで Stable Diffusion モデルの生成を制御します。

画像生成その他オープンソースライセンス:Openrail #深度マップ制御生成 #画像間変換 #Stable Diffusion拡張

ダウンロード数 12.52k

リリース時間 : 4/16/2023

モデル概要

ControlNet は、深度画像などの追加条件を使用して事前学習済みの大規模拡散モデルを制御するためのニューラルネットワーク構造です。このチェックポイントは特に深度画像条件向けにトレーニングされています。

モデル特徴

深度条件制御

深度画像を追加条件として使用し、画像生成の空間構造と階層を精密に制御します。

小規模データセットでの学習

小規模なデータセット（<50k）での学習でも堅牢な性能を維持します。

効率的な学習

学習速度は拡散モデルの微調整と同等で、個人のデバイスで実行可能です。

高い互換性

Stable Diffusion v1.5 や他の拡散モデルと組み合わせて使用できます。

モデル能力

深度条件付き画像生成

画像間変換

テキストプロンプトに基づく画像生成

元画像の空間構造を保持

使用事例

クリエイティブデザイン

シーン再構築

深度マップに基づいてシーンスタイルを再設計

元のシーン構造を保持しながら芸術的スタイルを変更

キャラクターデザイン

深度情報に基づいて異なるスタイルのキャラクターを生成

キャラクターのポーズと空間関係を保持

建築ビジュアライゼーション

建築スタイル変換

建築深度マップに基づいて異なるスタイルの建築レンダリングを生成

建築構造を保持しながら材質とスタイルを変更

🚀 Controlnet - v1.1 - depth Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このモデルは、Stable Diffusionなどの画像生成モデルと組み合わせて使用することができ、深度画像を条件として画像生成を制御します。

🚀 クイックスタート

Controlnet v1.1 は Controlnet v1.0 の後継モデルで、Lvmin Zhang によって lllyasviel/ControlNet-v1-1 で公開されました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したものです。Stable Diffusion と組み合わせて使用でき、例えば runwayml/stable-diffusion-v1-5 と一緒に使うことができます。

詳細については、🧨 Diffusersのドキュメントも参照してください。

このチェックポイントは、深度画像 を条件としたControlNetに対応しています。

✨ 主な機能

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。これにより、深度画像などの追加情報を利用して、Stable Diffusionなどの画像生成モデルを制御することができます。

📦 インストール

必要なパッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from transformers import pipeline


from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_depth"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_depth/resolve/main/images/input.png"
)

prompt = "Stormtrooper's lecture in beautiful lecture hall"

depth_estimator = pipeline('depth-estimation')
image = depth_estimator(image)['depth']
image = np.array(image)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
control_image = Image.fromarray(image)

control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

bird

bird_canny

bird_canny_out

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license で、BigScience と the RAIL Initiative による責任あるAIライセンスの取り組みから適応されています。詳細は the article about the BLOOM Open RAIL license を参照してください。
詳細情報のリソース	GitHub Repository, Paper

論文情報

ControlNetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

論文の概要は以下の通りです。

我々は、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。また、ControlNetの学習は拡散モデルの微調整と同じくらい速く、個人のデバイスでも学習できます。あるいは、強力な計算クラスタが利用可能な場合は、大量（数百万から数十億）のデータにスケーリングすることもできます。我々は、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、深度マップ、キーポイントなどの条件付き入力を可能にすることを報告しています。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

引用情報

@misc{zhang2023adding,
    title={Adding Conditional Control to Text-to-Image Diffusion Models}, 
    author={Lvmin Zhang and Maneesh Agrawala},
    year={2023},
    eprint={2302.05543},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

📄 ライセンス

このモデルは The CreativeML OpenRAIL M license の下で公開されています。

その他のv1-1チェックポイント

著者は、Stable Diffusion v1-5 を用いて、異なるタイプの条件付きで学習された14種類のチェックポイントを公開しています。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示で学習	条件なし
lllyasviel/control_v11p_sd15_inpaint	画像インペイントで学習	条件なし
lllyasviel/control_v11p_sd15_mlsd	多段階線分検出で学習	線分が注釈付けされた画像
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報を持つ画像（通常はグレースケール画像）
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報を持つ画像（通常は色分けされた画像）
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域を持つ画像（通常は色分けされた画像）
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で学習	ラインアートを持つ画像（通常は白い背景に黒い線）
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で学習	アニメスタイルのラインアートを持つ画像
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で学習	人体の姿勢を持つ画像（通常はキーポイントまたはスケルトンとして表される）
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブル（通常はランダムまたはユーザーが描いた線）を持つ画像
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジを持つ画像（通常はより絵画的またはアート的な効果を作り出すため）
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	パッチまたは領域がシャッフルされた画像
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部