sd - ControlNet Normalオープンソース画像生成モデル - 法線マップを利用して画像生成結果を制御する

ホーム

Sd Controlnet Normal

lllyasvielによって開発

ControlNetは法線マップ条件でStable Diffusionの画像生成を制御するニューラルネットワーク構造です

画像生成その他オープンソースライセンス:Openrail #法線マップ制御 #画像から画像生成 #Stable Diffusion拡張

ダウンロード数 437

リリース時間 : 2/24/2023

モデル概要

このモデルはStable Diffusion v1-5をベースに訓練され、追加入力条件として法線マップを使用して画像生成プロセスを制御します。正確な幾何学的制御が必要な画像生成シナリオに適しています。

モデル特徴

法線マップ制御

法線マップで生成画像の幾何形状と表面詳細を精密に制御

少数サンプル学習

小規模な訓練セット（<5万サンプル）でも安定した性能を維持

効率的な訓練

拡散モデルの微調整と同等の訓練速度で、個人デバイスでも実行可能

モデル能力

法線マップベースの画像生成

幾何形状の精密制御

Stable Diffusionとの互換性

使用事例

デジタルアート創作

3Dレンダリング支援

法線マップに基づき特定の表面詳細を持つ画像を迅速生成

入力法線マップに一致する高品質画像を生成可能

ゲーム開発

ゲームアセット生成

法線マップを基にゲームキャラクターやシーンテクスチャを一括生成

幾何学的整合性を保ちつつ多様なリソースを迅速生成

🚀 Controlnet - Normal Map Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、法線マップ推定を条件としたControlNetに対応しています。Stable Diffusionと組み合わせて使用することができます。

🚀 クイックスタート

このモデルを使用するには、まずdiffusersと関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

次に、以下のコードを実行します。

from PIL import Image
from transformers import pipeline
import numpy as np
import cv2
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from diffusers.utils import load_image

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-normal/resolve/main/images/toy.png").convert("RGB")

depth_estimator = pipeline("depth-estimation", model ="Intel/dpt-hybrid-midas" )

image = depth_estimator(image)['predicted_depth'][0]

image = image.numpy()

image_depth = image.copy()
image_depth -= np.min(image_depth)
image_depth /= np.max(image_depth)

bg_threhold = 0.4

x = cv2.Sobel(image, cv2.CV_32F, 1, 0, ksize=3)
x[image_depth < bg_threhold] = 0

y = cv2.Sobel(image, cv2.CV_32F, 0, 1, ksize=3)
y[image_depth < bg_threhold] = 0

z = np.ones_like(x) * np.pi * 2.0

image = np.stack([x, y, z], axis=2)
image /= np.sum(image ** 2.0, axis=2, keepdims=True) ** 0.5
image = (image * 127.5 + 127.5).clip(0, 255).astype(np.uint8)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "fusing/stable-diffusion-v1-5-controlnet-normal", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("cute toy", image, num_inference_steps=20).images[0]

image.save('images/toy_normal_out.png')

toy

toy_normal

toy_normal_out

✨ 主な機能

ControlNetは、追加の条件を加えることで拡散モデルを制御することができます。このチェックポイントは、法線マップ推定を条件としたControlNetに対応しています。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

導入

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して、追加の入力条件をサポートするためのニューラルネットワーク構造であるControlNetを提案します。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。さらに、ControlNetの学習は、拡散モデルの微調整と同じくらい速く、モデルは個人用デバイスで学習することができます。あるいは、強力な計算クラスタが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールすることができます。私たちは、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告しています。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

公開されたチェックポイント

著者らは、Stable Diffusion v1-5 を使用して、異なるタイプの条件付きで学習された8つの異なるチェックポイントを公開しました。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/sd-controlnet-canny Cannyエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-depth Midas深度推定で学習	黒が深い領域、白が浅い領域を表すグレースケール画像。
lllyasviel/sd-controlnet-hed HEDエッジ検出（ソフトエッジ）で学習	黒い背景に白いソフトエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-mlsd M-LSD線検出で学習	黒い背景に白い直線のみで構成されるモノクロ画像。
lllyasviel/sd-controlnet-normal 法線マップで学習	法線マッピングされた画像。
lllyasviel/sd-controlnet_openpose OpenPose骨格画像で学習	OpenPose骨格画像。
lllyasviel/sd-controlnet_scribble 人間のスクラッチで学習	黒い背景に白い輪郭の手書きモノクロ画像。
lllyasviel/sd-controlnet_seg セマンティックセグメンテーションで学習	ADE20K のセグメンテーションプロトコル画像。

トレーニング

通常のモデルは、初期モデルから学習され、さらに拡張モデルが学習されました。

初期の通常モデルは、DIODEからの25,452の法線画像とキャプションのペアで学習されました。画像のキャプションはBLIPによって生成されました。モデルは、Stable Diffusion 1.5をベースモデルとして、Nvidia A100 80Gを使用して100 GPU時間学習されました。

拡張された通常モデルは、初期の通常モデルを「粗い」法線マップでさらに学習しました。粗い法線マップは、Midasを使用して深度マップを計算し、次に距離から法線を計算することで生成されました。モデルは、初期の通常モデルをベースモデルとして、Nvidia A100 80Gを使用して200 GPU時間学習されました。