ControlNet v1.1オープンソース拡散制御ネットワーク - 線画に基づくSDモデル生成制御能力の強化

ホーム

Control V11p Sd15 Lineart

lllyasvielによって開発

ControlNet v1.1 は線画画像を条件とした拡散モデル制御ネットワークで、Stable Diffusionなどのモデルの生成制御能力を強化します。

画像生成その他オープンソースライセンス:Openrail #線画制御生成 #画像から画像への変換 #Stable Diffusion拡張

ダウンロード数 11.80k

リリース時間 : 4/14/2023

モデル概要

このモデルは線画画像を追加条件として加えることで、Stable Diffusionなどの拡散モデルの生成プロセスを精密に制御し、特に特定の線構造を保持する必要がある画像生成タスクに適しています。

モデル特徴

線画条件制御

入力された線画画像に基づいて生成画像の線構造を精密に制御可能

少量データ学習

小規模データセット(<5万サンプル)でも堅牢に学習可能

効率的な学習

学習速度は拡散モデルの微調整と同等で、個人デバイスで完了可能

高い互換性

Stable Diffusion v1.5や他の拡散モデルと組み合わせて使用可能

モデル能力

線画から画像生成

画像構造制御

アート創作支援

デザインスケッチレンダリング

使用事例

アート創作

線画彩色

白黒線画をカラーアート作品に変換

元の線構造を保持しながら色彩と詳細を追加

コンセプトデザイン

スケッチに基づき迅速にデザイン効果図を生成

デザイン意図を保持しつつ豊富な視覚表現を提供

エンターテインメント応用

キャラクターデザイン

シンプルな線画を完全なキャラクターイメージに変換

統一されたスタイルの多様なキャラクターデザインを生成

🚀 Controlnet - v1.1 - lineart Version

ControlNet v1.1は、拡散モデルを追加条件で制御するためのニューラルネットワーク構造です。このチェックポイントは、Stable Diffusionと組み合わせて使用でき、画像生成における高度な制御を可能にします。

🚀 クイックスタート

Controlnet v1.1 は Lvmin Zhang によって lllyasviel/ControlNet-v1-1 でリリースされました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したものです。Stable Diffusion、例えば runwayml/stable-diffusion-v1-5 と組み合わせて使用できます。

詳細については、🧨 Diffusers ドキュメントも参照してください。

ControlNetは、追加条件を追加することで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、線画画像を条件とするControlNetに対応しています。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

我々は、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするためのニューラルネットワーク構造であるControlNetを提案します。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、学習データセットが小さい場合（< 50k）でもロバストです。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、モデルは個人用デバイスで学習できます。あるいは、強力な計算クラスタが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールできます。我々は、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

💻 使用例

基本的な使用法

このチェックポイントは Stable Diffusion v1-5 で学習されているため、同じモデルと組み合わせて使用することをお勧めします。実験的に、このチェックポイントは dreamboothed stable diffusion などの他の拡散モデルとも使用できます。

⚠️ 重要提示

画像を処理して補助条件を作成する場合は、以下に示すように外部依存関係が必要です。

https://github.com/patrickvonplaten/controlnet_aux をインストールします。

$ pip install controlnet_aux==0.3.0

diffusers と関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

コードを実行します。

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import LineartDetector

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "ControlNet-1-1-preview/control_v11p_sd15_lineart"

image = load_image(
    "https://huggingface.co/ControlNet-1-1-preview/control_v11p_sd15_lineart/resolve/main/images/input.png"
)
image = image.resize((512, 512))

prompt = "michael jackson concert"
processor = LineartDetector.from_pretrained("lllyasviel/Annotators")

control_image = processor(image)
control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

bird

bird_canny

bird_canny_out

その他のv1-1チェックポイント

著者らは、Stable Diffusion v1-5 を使用して、異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしています。

モデル名	制御画像の概要	条件画像	生成画像の例
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルへの指示で学習	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像のインペイントで学習	条件なし。
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出で学習	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報がある画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart	線画生成で学習	線画がある画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメ線画生成で学習	アニメスタイルの線画がある画像。
lllyasviel/control_v11p_sd15_openpose	人物姿勢推定で学習	人物の姿勢がある画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルがある画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジがある画像、通常はより絵画的またはアート的な効果を作成するためのものです。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	シャッフルされたパッチまたは領域がある画像。
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部。	<a href="https://huggingface.co/lllyasviel/control_v11f1e_sd15_ti