ControlNet v1.1オープンソース画像生成モデル - OpenPoseを通じて画像生成を高精度に制御

ホーム

Control V11p Sd15 Openpose

frankjoshuaによって開発

ControlNet v1.1はStable Diffusionの拡散モデル強化構造で、openpose姿勢条件により正確な画像生成制御を実現します。

画像生成その他オープンソースライセンス:Openrail #人体姿勢制御 #高精度スケルトン生成 #手と顔のディテール強化

ダウンロード数 40

リリース時間 : 7/28/2023

モデル概要

このモデルは人体姿勢条件を追加することでStable Diffusionの画像生成を制御し、特に人物の姿勢を正確に制御する必要がある場面に適しています。

モデル特徴

正確な姿勢制御

openposeで検出した人体のキーポイント情報により、生成画像中の人物の姿勢を正確に制御

手と顔のサポート

改良されたプロセッサにより、手と顔のディテールをより正確に検出

トレーニングデータの最適化

v1.0バージョンのトレーニングデータセットの品質問題を修正し、より合理的な生成結果を実現

効率的なトレーニング

小規模データセット(<50k)でも堅牢にトレーニング可能で、個人のデバイスに適している

モデル能力

姿勢条件に基づく画像生成

人物姿勢制御

テキストから画像への変換

画像から画像への変換

使用事例

アート創作

キャラクターデザイン

指定した姿勢で迅速にキャラクターコンセプトアートを生成

人物の姿勢を正確に制御したアート作品

アニメーション制作

アニメーションキャラクターの特定の姿勢のキーフレームを生成

キャラクターの一貫性を保った姿勢変化

ファッションデザイン

服装展示

デザインした服装を着た様々な姿勢の効果図を生成

多角的な服装デザインの展示

🚀 Controlnet - v1.1 - openpose Version

Controlnet v1.1は、Controlnet v1.0の後継モデルで、Lvmin Zhangによってlllyasviel/ControlNet-v1-1でリリースされました。

このチェックポイントは、元のチェックポイントをdiffusers形式に変換したものです。Stable Diffusion、例えばrunwayml/stable-diffusion-v1-5と組み合わせて使用することができます。

詳細については、🧨 Diffusers docsも参照してください。

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。

このチェックポイントは、openpose画像を条件とするControlNetに対応しています。

🚀 クイックスタート

このチェックポイントはStable Diffusion v1-5で学習されているため、同モデルとの併用を推奨します。実験的に、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

✨ 主な機能

追加の条件付きで拡散モデルを制御できます。
学習が高速で、個人のデバイスでもトレーニング可能です。
多くの種類の条件付き入力（エッジマップ、セグメンテーションマップ、キーポイントなど）をサポートします。

📦 インストール

外部依存関係のインストール

画像を処理して補助条件を作成するには、以下の外部依存関係が必要です。

https://github.com/patrickvonplaten/controlnet_aux をインストールします。

$ pip install controlnet_aux==0.3.0

diffusersと関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import OpenposeDetector

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_openpose"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_openpose/resolve/main/images/input.png"
)

prompt = "chef in the kitchen"

processor = OpenposeDetector.from_pretrained('lllyasviel/ControlNet')

control_image = processor(image, hand_and_face=True)
control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

📚 ドキュメント

モデル詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で行っている責任あるAIライセンスの分野での作業から適応されています。詳細は、the article about the BLOOM Open RAIL licenseも参照してください。
詳細情報のリソース	GitHub Repository, Paper

論文紹介

Controlnetは、Lvmin ZhangとManeesh AgrawalaによるAdding Conditional Control to Text-to-Image Diffusion Modelsで提案されました。

概要は以下の通りです。事前学習された大規模拡散モデルを制御して、追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。さらに、ControlNetのトレーニングは拡散モデルの微調整と同じくらい速く、モデルは個人のデバイスでトレーニングできます。あるいは、強力なコンピューティングクラスタが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールできます。Stable Diffusionのような大規模拡散モデルにControlNetsを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

その他のリリースされたチェックポイント v1-1

著者らは、Stable Diffusion v1-5でそれぞれ異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしています。

モデル名	コントロール画像の概要	コントロール画像の例	生成画像の例
lllyasviel/control_v11p_sd15_canny キャニーエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/control_v11e_sd15_ip2p ピクセルからピクセルの指示で学習	条件なし。
lllyasviel/control_v11p_sd15_inpaint 画像インペイントで学習	条件なし。
lllyasviel/control_v11p_sd15_mlsd 多段階線分検出で学習	注釈付きの線分がある画像。
lllyasviel/control_v11f1p_sd15_depth 深度推定で学習	深度情報がある画像、通常はグレースケール画像として表されます。
lllyasviel/control_v11p_sd15_normalbae 表面法線推定で学習	表面法線情報がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_seg 画像セグメンテーションで学習	セグメント化された領域がある画像、通常は色分けされた画像として表されます。
lllyasviel/control_v11p_sd15_lineart ラインアート生成で学習	ラインアートがある画像、通常は白い背景に黒い線があります。
lllyasviel/control_v11p_sd15s2_lineart_anime アニメラインアート生成で学習	アニメスタイルのラインアートがある画像。
lllyasviel/control_v11p_sd15_openpose 人体姿勢推定で学習	人体の姿勢がある画像、通常はキーポイントまたはスケルトンのセットとして表されます。
lllyasviel/control_v11p_sd15_scribble スクリブルベースの画像生成で学習	スクリブルがある画像、通常はランダムまたはユーザーが描いたストロークです。
lllyasviel/control_v11p_sd15_softedge ソフトエッジ画像生成で学習	ソフトエッジがある画像、通常はより絵画的または芸術的な効果を作り出すために使用されます。
lllyasviel/control_v11e_sd15_shuffle 画像シャッフルで学習	パッチまたは領域がシャッフルされた画像。

Openpose 1.1の改善点

このモデルの改善は主に、OpenPoseの改良された実装に基づいています。pytorch OpenPoseとCMUのc++ openposeの違いを注意深く検討しました。現在、プロセッサはより正確になり、特に手に関しては改善されています。プロセッサの改善により、Openpose 1.1が向上しています。
より多くの入力（手と顔）がサポートされています。
以前のcnet 1.0のトレーニングデータセットにはいくつかの問題がありました。