ControlNet v1.1オープンソースモデル - 深度マップを利用してStable Diffusionを制御し、無料で画像を生成する

ホーム

Control V11f1p Sd15 Depth

frankjoshuaによって開発

ControlNet v1.1 は ControlNet v1.0 の後継モデルで、深度画像条件を用いて Stable Diffusion の画像生成を制御します。

画像生成その他オープンソースライセンス:Openrail #深度マップ制御生成 #マルチプリプロセッサ互換 #画像強化修復

ダウンロード数 28

リリース時間 : 7/27/2023

モデル概要

ControlNet は拡散モデルを制御するための追加条件を加えたニューラルネットワーク構造です。このチェックポイントは深度画像条件に基づく ControlNet に対応し、Stable Diffusion と組み合わせて使用できます。

モデル特徴

深度条件制御

深度画像を条件入力として使用し、生成画像の幾何学的構造と空間関係を精密に制御します。

改善されたトレーニングデータ

v1.0 のトレーニングデータセットの問題を修正し、バイアスを減少させ、モデルの堅牢性を向上させました。

データ拡張

ランダムな左右反転などのデータ拡張技術を適用し、モデルの汎化能力を高めました。

複数の深度推定方法に対応

異なるプリプロセッサ解像度や複数の深度推定方法（Midas、leres、zoeなど）をサポートしています。

モデル能力

深度マップベースの画像生成

画像から画像への変換

幾何学的構造の保持

3Dシーン生成

使用事例

アート創作

3Dシーン生成

深度マップに基づいて正しい透視図法と空間関係を持つ3Dシーン画像を生成します。

生成画像は入力深度マップの幾何学的構造を保持します

建築設計

建築ビジュアライゼーション

シンプルな深度スケッチから詳細な建築レンダリングを生成します。

コンセプトデザインをリアルな画像に迅速に変換

🚀 Controlnet - v1.1 - depth Version

Controlnet v1.1は、Controlnet v1.0の後継モデルで、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。このチェックポイントは、元のチェックポイントをdiffusers形式に変換したもので、runwayml/stable-diffusion-v1-5などのStable Diffusionと組み合わせて使用できます。詳細については、🧨 Diffusers docsも参照してください。ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、深度画像を条件としたControlNetに対応しています。

🚀 クイックスタート

Controlnet v1.1は高度な画像生成モデルで、Stable Diffusionと組み合わせることで、深度画像などの追加条件を用いた画像生成が可能です。以下に、使用方法の概要を説明します。

✨ 主な機能

追加条件による制御：ControlNetを使用することで、Stable Diffusionに深度画像などの追加条件を与え、生成画像を制御できます。
多様な条件に対応：エッジマップ、深度マップ、キーポイントなど、様々な条件に対応しています。
高速な学習：ControlNetの学習は、拡散モデルの微調整と同じくらい高速で、個人のデバイスでも学習可能です。

📦 インストール

diffusersと関連パッケージをインストールするには、以下のコマンドを実行します。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from transformers import pipeline


from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_depth"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_depth/resolve/main/images/input.png"
)

prompt = "Stormtrooper's lecture in beautiful lecture hall"

depth_estimator = pipeline('depth-estimation')
image = depth_estimator(image)['depth']
image = np.array(image)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
control_image = Image.fromarray(image)

control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で行っている責任あるAIライセンスの分野の作業から適応されています。また、このライセンスはthe article about the BLOOM Open RAIL licenseをベースにしています。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

導入

Controlnetは、Lvmin ZhangとManeesh AgrawalaによるAdding Conditional Control to Text-to-Image Diffusion Modelsで提案されました。概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して、追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。さらに、ControlNetの学習は、拡散モデルの微調整と同じくらい高速で、個人のデバイスでも学習できます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータに拡張できます。Stable Diffusionのような大規模拡散モデルは、ControlNetを用いて、エッジマップ、深度マップ、キーポイントなどの条件付き入力を可能にすることができます。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

その他のリリースされたチェックポイント v1-1

著者らは、Stable Diffusion v1-5でそれぞれ異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしました。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示で学習	条件なし
lllyasviel/control_v11p_sd15_inpaint	画像インペイントで学習	条件なし
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出で学習	線分がアノテーションされた画像
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報がある画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で学習	ラインアートがある画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で学習	アニメスタイルのラインアートがある画像
lllyasviel/control_v11p_sd15_openpose	人体ポーズ推定で学習	人体のポーズがある画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルがある画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジがある画像、通常はより絵画的またはアート的な効果を生み出すためのものです。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	パッチまたは領域がシャッフルされた画像
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部