ControlNet v1.1（control_v11p_sd15_inpaint）オープンソースの画像修復モデル

ホーム

Control V11p Sd15 Inpaint

lllyasvielによって開発

ControlNet v1.1 は Stable Diffusion に基づく画像修復の条件制御モデルで、画像修復タスクに使用されます。

画像生成その他オープンソースライセンス:Openrail #画像修復制御 #Stable Diffusion拡張 #条件付き拡散モデル

ダウンロード数 38.44k

リリース時間 : 4/14/2023

モデル概要

このモデルは修復画像条件を追加することで Stable Diffusion モデルを制御し、精密な画像修復機能を実現します。

モデル特徴

精密画像修復

マスク画像に基づいて指定領域の画像内容を精密に修復可能

条件制御

ControlNet 構造により拡散モデルへの精密な制御を実現

小規模データセット学習

小規模データセット(<50k)でも安定した学習が可能

モデル能力

画像修復

画像編集

条件付き画像生成

使用事例

画像編集

物体除去

画像から不要な物体を除去し合理的な内容で埋める

自然でシームレスな修復効果を生成

顔装飾

人物にアクセサリー(眼鏡など)を追加・修正

リアルな装飾効果を生成

芸術創作

創造的画像合成

既存画像に基づく創造的な修正と合成

芸術的な画像を生成

🚀 Controlnet - v1.1 - InPaint Version

ControlNet v1.1は、拡散モデルを追加条件で制御するためのニューラルネットワーク構造です。このチェックポイントは、画像インペイントに対応したバージョンで、Stable Diffusionと組み合わせて使用できます。

🚀 クイックスタート

Controlnet v1.1 は Lvmin Zhang によって lllyasviel/ControlNet-v1-1 でリリースされました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したものです。Stable Diffusion、例えば runwayml/stable-diffusion-v1-5 と組み合わせて使用できます。

詳細については、🧨 Diffusers ドキュメントも参照してください。

ControlNetは、追加条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、インペイント画像 を条件としたControlNetに対応しています。

✨ 主な機能

拡散モデルを追加条件で制御できる。
小さなトレーニングデータセットでもロバストに学習できる。
トレーニングが高速で、個人のデバイスでも可能。

📦 インストール

diffusers と関連パッケージをインストールしましょう。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

# !pip install transformers accelerate
from diffusers import StableDiffusionControlNetInpaintPipeline, ControlNetModel
from diffusers.utils import load_image
import numpy as np
import torch

init_image = load_image(
    "https://huggingface.co/datasets/diffusers/test-arrays/resolve/main/stable_diffusion_inpaint/boy.png"
)
init_image = init_image.resize((512, 512))

generator = torch.Generator(device="cpu").manual_seed(1)

mask_image = load_image(
    "https://huggingface.co/datasets/diffusers/test-arrays/resolve/main/stable_diffusion_inpaint/boy_mask.png"
)
mask_image = mask_image.resize((512, 512))


def make_inpaint_condition(image, image_mask):
    image = np.array(image.convert("RGB")).astype(np.float32) / 255.0
    image_mask = np.array(image_mask.convert("L")).astype(np.float32) / 255.0

    assert image.shape[0:1] == image_mask.shape[0:1], "image and image_mask must have the same image size"
    image[image_mask > 0.5] = -1.0  # set as masked pixel
    image = np.expand_dims(image, 0).transpose(0, 3, 1, 2)
    image = torch.from_numpy(image)
    return image


control_image = make_inpaint_condition(init_image, mask_image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/control_v11p_sd15_inpaint", torch_dtype=torch.float16
)
pipe = StableDiffusionControlNetInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = DDIMScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

# generate image
image = pipe(
    "a handsome man with ray-ban sunglasses",
    num_inference_steps=20,
    generator=generator,
    eta=1.0,
    image=init_image,
    mask_image=mask_image,
    control_image=control_image,
).images[0]

original

📚 ドキュメント

モデル詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license で、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野での作業から適応されています。詳細は the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

導入

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

我々は、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするためのニューラルネットワーク構造、ControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、トレーニングデータセットが小さい場合（< 50k）でもロバストに学習します。さらに、ControlNetのトレーニングは拡散モデルの微調整と同じくらい速く、個人のデバイスでもトレーニングできます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータに拡張できます。我々は、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

その他のリリースされたチェックポイント v1-1

著者らは、Stable Diffusion v1-5 でそれぞれ異なるタイプの条件付きでトレーニングされた14の異なるチェックポイントをリリースしました。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	Cannyエッジ検出でトレーニング	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示でトレーニング	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像インペイントでトレーニング	条件なし。
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出でトレーニング	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定でトレーニング	深度情報がある画像、通常はグレースケール画像で表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定でトレーニング	表面法線情報がある画像、通常は色分けされた画像で表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションでトレーニング	セグメント化された領域がある画像、通常は色分けされた画像で表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成でトレーニング	ラインアートがある画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成でトレーニング	アニメスタイルのラインアートがある画像。
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定でトレーニング	人体の姿勢がある画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成でトレーニング	スクリブルがある画像、通常はランダムまたはユーザーが描いた線です。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成でトレーニング	ソフトエッジがある画像、通常はより絵画的またはアート的な効果を作り出すためのものです。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルでトレーニング	パッチまたは領域がシャッフルされた画像。