sd-controlnet-depthオープンソース画像生成モデル - 深度制約による高品質画像生成

ホーム

Sd Controlnet Depth

lllyasvielによって開発

ControlNetは深度推定条件を通じてStable Diffusionを制御するニューラルネットワーク構造で、深度制約に準拠した画像を生成できます。

画像生成その他オープンソースライセンス:Openrail #深度マップ制御 #画像条件生成 #Stable Diffusion拡張

ダウンロード数 11.41k

リリース時間 : 2/24/2023

モデル概要

深度推定条件に基づくControlNetモデルで、追加の入力条件により事前学習済みの大規模拡散モデルを制御し、特定の深度構造に準拠した画像生成をサポートします。

モデル特徴

深度条件制御

グレースケール深度マップ（黒が深く白が浅い）で生成画像の立体構造を精密制御

少数データ学習

5万サンプル以下でタスク固有の条件をロバストに学習可能

デバイス互換性

個人デバイスでの学習をサポートし、大規模計算クラスタへの拡張も可能

モデル能力

深度マップに基づく画像生成

画像構造の精密制御

Stable Diffusionとの互換性

使用事例

アート創作

3Dシーン再構築

深度マップから正しい透視関係を持つアートシーンを生成

例示では元の深度構造を正確に保持（ストームトルーパー事例）

デザイン支援

プロトタイプ可視化

簡略化した深度スケッチから高精細レンダリングを迅速生成

🚀 Controlnet - Depth Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、深度推定を条件としたControlNetに対応しています。Stable Diffusionと組み合わせて使用することができます。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、当社のライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でも学習は堅牢です。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、モデルは個人用デバイスで学習することができます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータに拡張することができます。Stable Diffusionのような大規模拡散モデルは、ControlNetを用いてエッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にすることができることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

公開されたチェックポイント

著者らは、Stable Diffusion v1-5 をベースに、異なるタイプの条件付きで学習された8つの異なるチェックポイントを公開しています。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/sd-controlnet-canny キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-depth Midas深度推定で学習	黒が深い領域、白が浅い領域を表すグレースケール画像。
lllyasviel/sd-controlnet-hed HEDエッジ検出（ソフトエッジ）で学習	黒い背景に白いソフトエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-mlsd M-LSD線検出で学習	黒い背景に白い直線のみで構成されたモノクロ画像。
lllyasviel/sd-controlnet-normal 法線マップで学習	法線マッピングされた画像。
lllyasviel/sd-controlnet_openpose OpenPose骨格画像で学習	OpenPose骨格画像。
lllyasviel/sd-controlnet_scribble 人間のスクライブルで学習	黒い背景に白い輪郭がある手書きのモノクロ画像。
lllyasviel/sd-controlnet_seg セマンティックセグメンテーションで学習	ADE20K のセグメンテーションプロトコル画像。

💻 使用例

基本的な使用法

このチェックポイントは Stable Diffusion v1-5 で学習されているため、同モデルと組み合わせて使用することをおすすめします。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

diffusers と関連パッケージをインストールしましょう。

$ pip install diffusers transformers accelerate

コードを実行します。

from transformers import pipeline
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
from PIL import Image
import numpy as np
import torch
from diffusers.utils import load_image

depth_estimator = pipeline('depth-estimation')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")

image = depth_estimator(image)['depth']
image = np.array(image)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-depth", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# xformersがインストールされていない場合は削除してください
# インストール手順については https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers を参照してください
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("Stormtrooper's lecture", image, num_inference_steps=20).images[0]

image.save('./images/stormtrooper_depth_out.png')