ControlNet v1.1オープンソースAIモデル - タイル画像条件をサポートする無料の画像生成と超解像

ホーム

Control V11f1e Sd15 Tile

lllyasvielによって開発

ControlNet v1.1 は、追加条件を付加することで事前学習済みの大規模拡散モデルを制御するニューラルネットワーク構造で、特にタイル画像条件に基づく画像生成や超解像度タスクに適しています。

画像生成その他オープンソースライセンス:Openrail #画像超解像度 #ディテール強調 #タイル処理

ダウンロード数 14.39k

リリース時間 : 5/4/2023

モデル概要

このモデルは Stable Diffusion v1-5 を基に訓練されており、入力されたタイル画像条件に基づいて高品質な画像を生成でき、画像強調やディテール生成などのシナリオに適用可能です。

モデル特徴

タイル画像条件制御

入力されたタイル画像条件に基づいて同じサイズの高品質なディテール画像を生成でき、超解像度モデルに似ていますが機能がより広範囲です。

効率的な訓練

小規模データセット（<5万サンプル）でも堅牢な学習を維持でき、訓練速度は拡散モデルの微調整と同等です。

高い互換性

Stable Diffusion v1-5 や他の拡散モデル（例：dreamboothed stable diffusion）と組み合わせて使用可能です。

モデル能力

画像超解像度

ディテール強調

条件付き画像生成

画像から画像への変換

使用事例

画像処理

画像ディテール強調

低解像度やぼやけた画像に対してディテール強調や超解像度処理を施す

入力画像と同じサイズでより豊富なディテールを含む高品質な画像を生成

アート創作

タイル画像条件に基づいてアートスタイルの画像を生成

入力画像の構造を保持しながらアートスタイルのディテールを追加

🚀 Controlnet - v1.1 - Tile Version

Controlnet v1.1は、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。

このチェックポイントは、元のチェックポイントをdiffusers形式に変換したものです。 Stable Diffusion、例えばrunwayml/stable-diffusion-v1-5と組み合わせて使用することができます。

詳細については、🧨 Diffusers docsもご覧ください。

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、タイル画像を条件とするControlNetに対応しています。概念的には、超解像モデルに似ていますが、それに限定されることなく使用できます。入力（条件）画像と同じサイズの詳細を生成することも可能です。

このモデルはtakuma104によって提供されました

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
使用言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で行っている責任あるAIライセンスの分野の作業から適応されています。また、私たちのライセンスが基づいているthe article about the BLOOM Open RAIL licenseも参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

導入

Controlnetは、Lvmin ZhangとManeesh AgrawalaによるAdding Conditional Control to Text-to-Image Diffusion Modelsで提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。 ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でもロバストです。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、モデルは個人用デバイスで学習できます。あるいは、強力な計算クラスタが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールすることができます。 Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を有効にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

他のリリースされたチェックポイントv1-1

著者らは、Stable Diffusion v1-5を使用して、異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしました。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルの指示で学習	条件なし。
lllyasviel/control_v11p_sd15_inpaint	画像のインペイントで学習	条件なし。
lllyasviel/control_v11p_sd15_mlsd	多レベルの線分検出で学習	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報を持つ画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域を持つ画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で学習	ラインアートを持つ画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で学習	アニメスタイルのラインアートを持つ画像。
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で学習	人体の姿勢を持つ画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルを持つ画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジを持つ画像、通常はより絵画的またはアート的な効果を作成するために使用されます。
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	パッチまたは領域がシャッフルされた画像。
lllyasviel/control_v11f1e_sd15_tile	タイル画像で学習	タイル画像。

📦 インストール

このチェックポイントはStable Diffusion v1-5で学習されているため、これと組み合わせて使用することをお勧めします。実験的には、このチェックポイントはdreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

diffusersと関連パッケージをインストールしましょう。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
from PIL import Image
from diffusers import ControlNetModel, DiffusionPipeline
from diffusers.utils import load_image

def resize_for_condition_image(input_image: Image, resolution: int):
    input_image = input_image.convert("RGB")
    W, H = input_image.size
    k = float(resolution) / min(H, W)
    H *= k
    W *= k
    H = int(round(H / 64.0)) * 64
    W = int(round(W / 64.0)) * 64
    img = input_image.resize((W, H), resample=Image.LANCZOS)
    return img

controlnet = ControlNetModel.from_pretrained('lllyasviel/control_v11f1e_sd15_tile', 
                                             torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",
                                         custom_pipeline="stable_diffusion_controlnet_img2img",
                                         controlnet=controlnet,
                                         torch_dtype=torch.float16).to('cuda')
pipe.enable_xformers_memory_efficient_attention()

source_image = load_image('https://huggingface.co/lllyasviel/control_v11f1e_sd15_tile/resolve/main/images/original.png')

condition_image = resize_for_condition_image(source_image, 1024)
image = pipe(prompt="best quality", 
             negative_prompt="blur, lowres, bad anatomy, bad hands, cropped, worst quality", 
             image=condition_image, 
             controlnet_conditioning_image=condition_image, 
             width=condition_image.size[0],
             height=condition_image.size[1],
             strength=1.0,
             generator=torch.manual_seed(0),
             num_inference_steps=32,
            ).images[0]

image.save('output.png')