ControlNet v1.1オープンソースモデル - 無料でデプロイ可能、拡散モデルの生成結果を効果的に制御！

ホーム

Control V11f1e Sd15 Tile

ControlNet-1-1-previewによって開発

ControlNet v1.1は、拡散モデルベースのニューラルネットワーク構造で、追加条件を付加することで事前学習済みの大規模拡散モデルを制御します。

画像生成その他オープンソースライセンス:Openrail #画像超解像度 #ディテール強調 #タイル処理

ダウンロード数 79

リリース時間 : 5/4/2023

モデル概要

このモデルはタイル画像ベースのControlNetで、超解像モデルと同様に、入力画像と同じサイズのディテールを生成できます。

モデル特徴

タイル画像処理

タイル画像を処理し、入力画像と同じサイズのディテールを生成できます。

条件制御

追加条件を付加することで事前学習済みの拡散モデルを制御します。

効率的な学習

小規模データセット（<50k）でも堅牢な学習効果を維持できます。

モデル能力

画像超解像度

画像ディテール生成

条件付き画像生成

使用事例

画像強調

画像ディテール強調

タイル処理により画像のディテールと品質を向上させます。

高品質でディテール豊富な画像を生成します。

アート創作

アートスタイル変換

入力画像に基づいてアートスタイルの画像を生成します。

特定のアートスタイルを持つ画像を生成します。

🚀 Controlnet - v1.1 - Tile Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このモデルは、Stable Diffusionと組み合わせて使用することができ、画像生成の制御性を向上させます。

🚀 クイックスタート

Controlnet v1.1は、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。

このチェックポイントは、元のチェックポイントをdiffusers形式に変換したものです。runwayml/stable-diffusion-v1-5などのStable Diffusionと組み合わせて使用できます。

詳細については、🧨 Diffusers docsも参照してください。

✨ 主な機能

ControlNetは、追加の入力条件をサポートするために事前学習された大規模拡散モデルを制御するニューラルネットワーク構造です。このモデルは、タスク固有の条件をエンドツーエンドで学習し、訓練データセットが小さい場合でもロバストな学習が可能です。

📦 インストール

diffusersと関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
from PIL import Image
from diffusers import ControlNetModel, DiffusionPipeline
from diffusers.utils import load_image

def resize_for_condition_image(input_image: Image, resolution: int):
    input_image = input_image.convert("RGB")
    W, H = input_image.size
    k = float(resolution) / min(H, W)
    H *= k
    W *= k
    H = int(round(H / 64.0)) * 64
    W = int(round(W / 64.0)) * 64
    img = input_image.resize((W, H), resample=Image.LANCZOS)
    return img

controlnet = ControlNetModel.from_pretrained('lllyasviel/control_v11f1e_sd15_tile', 
                                             torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",
                                         custom_pipeline="stable_diffusion_controlnet_img2img",
                                         controlnet=controlnet,
                                         torch_dtype=torch.float16).to('cuda')
pipe.enable_xformers_memory_efficient_attention()

source_image = load_image('https://huggingface.co/lllyasviel/control_v11f1e_sd15_tile/resolve/main/images/original.png')

condition_image = resize_for_condition_image(source_image, 1024)
image = pipe(prompt="best quality", 
             negative_prompt="blur, lowres, bad anatomy, bad hands, cropped, worst quality", 
             image=condition_image, 
             controlnet_conditioning_image=condition_image, 
             width=condition_image.size[0],
             height=condition_image.size[1],
             strength=1.0,
             generator=torch.manual_seed(0),
             num_inference_steps=32,
            ).images[0]

image.save('output.png')

original tile_output

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で行っている責任あるAIライセンスの分野の作業から適応されています。また、私たちのライセンスが基づいているthe article about the BLOOM Open RAIL licenseも参照してください。
詳細情報のリソース	GitHub Repository, Paper

引用

@misc{zhang2023adding,
    title={Adding Conditional Control to Text-to-Image Diffusion Models}, 
    author={Lvmin Zhang and Maneesh Agrawala},
    year={2023},
    eprint={2302.05543},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

他のリリースされたチェックポイントv1-1

著者らは、Stable Diffusion v1-5を使用して、異なるタイプの条件付きで訓練された14の異なるチェックポイントをリリースしました。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/control_v11p_sd15_canny Cannyエッジ検出で訓練	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p ピクセルからピクセルの指示で訓練	条件なし。
lllyasviel/control_v11p_sd15_inpaint 画像インペイントで訓練	条件なし。
lllyasviel/control_v11p_sd15_mlsd 多レベル線分検出で訓練	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth 深度推定で訓練	深度情報がある画像。通常、グレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae 表面法線推定で訓練	表面法線情報がある画像。通常、色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg 画像セグメンテーションで訓練	セグメント化された領域がある画像。通常、色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart ラインアート生成で訓練	ラインアートがある画像。通常、白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime アニメラインアート生成で訓練	アニメスタイルのラインアートがある画像。
lllyasviel/control_v11p_sd15_openpose 人体ポーズ推定で訓練	人体のポーズがある画像。通常、キーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble スクリブルベースの画像生成で訓練	スクリブルがある画像。通常、ランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge ソフトエッジ画像生成で訓練	ソフトエッジがある画像。通常、より絵画的または芸術的な効果を作成するために使用されます。
lllyasviel/control_v11e_sd15_shuffle 画像シャッフルで訓練	パッチまたは領域がシャッフルされた画像。
lllyasviel/control_v11f1e_sd15_tile 画像タイリングで訓練	タイリングされた画像に基づく条件付きで訓練されたモデル。