オープンソースControlNet v1.1 スケッチ生成モデル - スケッチを条件として画像生成を精度よく制御する

ホーム

Control V11p Sd15 Scribble

lllyasvielによって開発

ControlNet v1.1 は ControlNet v1.0 の後継モデルで、追加条件を加えることで拡散モデルを制御し、特に落書き画像に基づく生成タスクに適しています。

画像生成その他オープンソースライセンス:Openrail #落書き制御生成 #画像から画像への変換 #アート創作支援

ダウンロード数 8,423

リリース時間 : 4/14/2023

モデル概要

ControlNet は、落書き画像などの追加条件を加えることで拡散モデルを制御し、より正確な画像生成を実現するニューラルネットワーク構造です。

モデル特徴

落書き条件制御

落書き画像を条件として使用し、落書き構造に合致した画像を生成できます。

改善されたトレーニングデータ

旧バージョンのトレーニングデータにおける重複、低品質、ペアリングエラーを修正し、より合理的な生成結果を得られます。

太い落書きのサポート

落書きが太い場合（最大幅は512キャンバス上で24ピクセル幅）でも、モデルは良好に動作します。

モデル能力

落書きに基づく画像生成

画像から画像への変換

アート創作

使用事例

アート創作

豪華なロイヤルベッドルームの生成

落書きスケッチから高品質な豪華なロイヤルベッドルーム画像を生成します。

生成された画像は落書き構造に合致し、詳細に富んでいます。

デザイン支援

迅速なプロトタイプ設計

デザイナーは簡単な落書きから高品質なデザインプロトタイプを迅速に生成できます。

デザインプロセスを加速し、創造的な表現効率を向上させます。

🚀 Controlnet - v1.1 - Scribble Version

Controlnet v1.1は、Controlnet v1.0の後継モデルで、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。このチェックポイントは、元のチェックポイントをdiffusers形式に変換したもので、Stable Diffusion、例えばrunwayml/stable-diffusion-v1-5と組み合わせて使用することができます。

🚀 クイックスタート

このチェックポイントはStable Diffusion v1-5で学習されているため、同モデルとの組み合わせが推奨されます。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

✨ 主な機能

ControlNetは、追加の条件を付与することで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、スクリブル画像を条件としたControlNetに対応しています。

📦 インストール

外部依存関係のインストール

$ pip install controlnet_aux==0.3.0

`diffusers`と関連パッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import PidiNetDetector, HEDdetector

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_scribble"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_scribble/resolve/main/images/input.png"
)

prompt = "royal chamber with fancy bed"

processor = HEDdetector.from_pretrained('lllyasviel/Annotators')

control_image = processor(image, scribble=True)

control_image.save("./images/control.png")
controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

bird bird_canny bird_canny_out

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、当ライセンスの基礎となっているthe article about the BLOOM Open RAIL licenseも参照してください。
詳細情報のリソース	GitHubリポジトリ, 論文

論文の紹介

Controlnetは、Lvmin ZhangとManeesh AgrawalaによるAdding Conditional Control to Text-to-Image Diffusion Modelsで提案されました。

論文の概要は以下の通りです。我々は、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするためのニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、パーソナルデバイスでも学習できます。あるいは、強力な計算クラスタが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケーリングすることができます。我々は、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告しています。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

他のリリースされたチェックポイント v1-1

著者らは、Stable Diffusion v1-5でそれぞれ異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしています。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルツーピクセルの指示で学習	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像のインペイントで学習	条件なし。
lllyasviel/control_v11p_sd15_mlsd	マルチレベルの線分検出で学習	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報を持つ画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で学習	ラインアートを持つ画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で学習	アニメスタイルのラインアートを持つ画像。
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で学習	人体の姿勢を持つ画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルを持つ画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジを持つ画像、通常はより絵画的または芸術的な効果を作成するためのものです。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	シャッフルされたパッチまたは領域を持つ画像。
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部。

引用

@misc{zhang2023adding,
    title={Adding Conditional Control to Text-to-Image Diffusion Models}, 
    author={Lvmin Zhang and Maneesh Agrawala},
    year={2023},
    eprint={2302.05543},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}