🚀 Controlnet - v1.1 - Tile Version
ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このモデルは、Stable Diffusionと組み合わせて使用することができ、画像生成の制御性を向上させます。
🚀 クイックスタート
Controlnet v1.1は、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。
このチェックポイントは、元のチェックポイントをdiffusers
形式に変換したものです。runwayml/stable-diffusion-v1-5などのStable Diffusionと組み合わせて使用できます。
詳細については、🧨 Diffusers docsも参照してください。
✨ 主な機能
ControlNetは、追加の入力条件をサポートするために事前学習された大規模拡散モデルを制御するニューラルネットワーク構造です。このモデルは、タスク固有の条件をエンドツーエンドで学習し、訓練データセットが小さい場合でもロバストな学習が可能です。
📦 インストール
diffusers
と関連パッケージをインストールします。
$ pip install diffusers transformers accelerate
💻 使用例
基本的な使用法
import torch
from PIL import Image
from diffusers import ControlNetModel, DiffusionPipeline
from diffusers.utils import load_image
def resize_for_condition_image(input_image: Image, resolution: int):
input_image = input_image.convert("RGB")
W, H = input_image.size
k = float(resolution) / min(H, W)
H *= k
W *= k
H = int(round(H / 64.0)) * 64
W = int(round(W / 64.0)) * 64
img = input_image.resize((W, H), resample=Image.LANCZOS)
return img
controlnet = ControlNetModel.from_pretrained('lllyasviel/control_v11f1e_sd15_tile',
torch_dtype=torch.float16)
pipe = DiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5",
custom_pipeline="stable_diffusion_controlnet_img2img",
controlnet=controlnet,
torch_dtype=torch.float16).to('cuda')
pipe.enable_xformers_memory_efficient_attention()
source_image = load_image('https://huggingface.co/lllyasviel/control_v11f1e_sd15_tile/resolve/main/images/original.png')
condition_image = resize_for_condition_image(source_image, 1024)
image = pipe(prompt="best quality",
negative_prompt="blur, lowres, bad anatomy, bad hands, cropped, worst quality",
image=condition_image,
controlnet_conditioning_image=condition_image,
width=condition_image.size[0],
height=condition_image.size[1],
strength=1.0,
generator=torch.manual_seed(0),
num_inference_steps=32,
).images[0]
image.save('output.png')

📚 ドキュメント
モデルの詳細
引用
@misc{zhang2023adding,
title={Adding Conditional Control to Text-to-Image Diffusion Models},
author={Lvmin Zhang and Maneesh Agrawala},
year={2023},
eprint={2302.05543},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
他のリリースされたチェックポイントv1-1
著者らは、Stable Diffusion v1-5を使用して、異なるタイプの条件付きで訓練された14の異なるチェックポイントをリリースしました。
📄 ライセンス
このモデルは、The CreativeML OpenRAIL M licenseの下で提供されています。