ControlNet v1.1オープンソースモデル - 線画画像に基づく制御で、拡散モデルの入力条件拡充をサポート

ホーム

Control V11p Sd15 Lineart

shuai1106によって開発

ControlNet v1.1 は線画画像を条件としたニューラルネットワーク構造で、事前学習済み拡散モデルを制御し追加の入力条件をサポートします。

画像生成その他オープンソースライセンス:Openrail #線画制御生成 #画像から画像への変換 #アート創作支援

ダウンロード数 17

リリース時間 : 10/20/2023

モデル概要

ControlNet は追加条件を加えることで拡散モデルを制御し、特に線画画像に基づく高品質画像生成タスクに適しています。

モデル特徴

線画制御

線画画像を条件として、生成画像の内容を精密に制御します。

エンドツーエンド学習

トレーニングデータセットが小さくても（< 50k）、タスク固有の条件をロバストに学習可能。

効率的なトレーニング

拡散モデルのファインチューニングと同等のトレーニング速度で、個人デバイス上でもトレーニング可能。

幅広い適用性

Stable Diffusion などの大規模拡散モデルと組み合わせて使用可能で、多様な条件入力をサポート。

モデル能力

線画ベースの画像生成

画像から画像への変換

アートスタイル生成

画像内容の精密制御

使用事例

アート創作

線画の彩色

白黒線画をカラー画像に変換し、元の線構造を保持します。

アートスタイルのカラー画像を生成

コンセプトデザイン

シンプルな線画から詳細なコンセプトデザイン図を生成します。

高品質なデザイン図を迅速に生成

エンターテインメント

アニメスタイル変換

一般的な線画をアニメスタイルの画像に変換します。

アニメスタイルの画像を生成

🚀 Controlnet - v1.1 - ラインアート版

ControlNetは、追加の条件を付加することで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、ControlNetのラインアート画像に基づくバージョンで、Stable Diffusionと組み合わせて使用できます。

🚀 クイックスタート

Controlnet v1.1 は、Lvmin Zhangによって lllyasviel/ControlNet-v1-1 でリリースされました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したもので、runwayml/stable-diffusion-v1-5 などの Stable Diffusion と組み合わせて使用できます。

詳細については、🧨 Diffusersのドキュメントも参照してください。

ControlNetは、追加の条件を付加することで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、ラインアート画像 を条件としたControlNetに対応しています。

✨ 主な機能

ControlNetは、事前学習された大規模拡散モデルに追加の入力条件をサポートするためのニューラルネットワーク構造です。以下のような特徴があります。

学習データセットが小さい場合でも（< 50k）、エンドツーエンドでタスク固有の条件を学習できます。
拡散モデルの微調整と同じくらい速く学習でき、個人のデバイスでも学習可能です。
強力な計算クラスターがあれば、大量（数百万から数十億）のデータにスケールできます。
Stable Diffusionなどの大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件入力を可能にします。

📦 インストール

外部依存関係のインストール

画像を処理して補助条件を作成する場合は、以下の外部依存関係が必要です。

$ pip install controlnet_aux==0.3.0

`diffusers` と関連パッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

このチェックポイントは Stable Diffusion v1-5 で学習されているため、これと組み合わせて使用することをおすすめします。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import LineartDetector

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "ControlNet-1-1-preview/control_v11p_sd15_lineart"

image = load_image(
    "https://huggingface.co/ControlNet-1-1-preview/control_v11p_sd15_lineart/resolve/main/images/input.png"
)
image = image.resize((512, 512))

prompt = "michael jackson concert"
processor = LineartDetector.from_pretrained("lllyasviel/Annotators")

control_image = processor(image)
control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

bird bird_canny bird_canny_out

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	CreativeML OpenRAIL Mライセンスは、Open RAIL Mライセンスであり、BigScience と RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、BLOOM Open RAILライセンスに関する記事も参照してください。
詳細情報のリソース	GitHubリポジトリ、論文
引用方法	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

他のリリースされたチェックポイントv1-1

著者らは、Stable Diffusion v1-5 でそれぞれ異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしています。

モデル名	制御画像の概要	条件画像	生成画像の例
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジのモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示で学習	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像インペイントで学習	条件なし。
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出で学習	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報を持つ画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で学習	通常は白い背景に黒い線のラインアート画像。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で学習	アニメスタイルのラインアート画像。
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で学習	人体の姿勢を持つ画像、通常はキーポイントまたは骨格のセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルを持つ画像、通常はランダムまたはユーザーが描いた線。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジを持つ画像、通常はより絵画的または芸術的な効果を作成するために使用されます。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	シャッフルされたパッチまたは領域を持つ画像。
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部。	<a href="https://huggingface.co/lllyasviel/control_v11f1e_sd15_ti

📄 ライセンス

このモデルは The CreativeML OpenRAIL M license の下で提供されています。これは Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。詳細については、the article about the BLOOM Open RAIL license も参照してください。