sd-controlnet-hedオープンソースモデル - Stable Diffusionを制御し、画像のエッジ特徴を正確に生成！

ホーム

Sd Controlnet Hed

lllyasvielによって開発

HED境界条件でトレーニングされたControlNetモデル、Stable Diffusionで生成される画像のエッジ特徴を制御するために使用

画像生成その他オープンソースライセンス:Openrail #HEDソフトエッジ制御 #画像から画像生成 #アート創作支援

ダウンロード数 552

リリース時間 : 2/24/2023

モデル概要

ControlNetは、HED境界図などの追加条件を付加することで拡散モデルの生成を制御するニューラルネットワーク構造で、Stable Diffusionと組み合わせて精密な画像生成制御を実現

モデル特徴

HEDエッジ制御

HED（Holistically-Nested Edge Detection）アルゴリズムで抽出されたソフトエッジ特徴を制御条件として使用

少数サンプル適応

小規模なトレーニングセット（<5万サンプル）でもロバストな性能を維持

効率的なトレーニング

トレーニング速度は拡散モデルのファインチューニングと同等で、個人デバイスでのトレーニングをサポート

高い互換性

Stable Diffusion v1-5および派生モデル（dreamboothファインチューニング版など）と連携可能

モデル能力

画像エッジ検出

条件付き画像生成

アート創作支援

画像スタイル変換

使用事例

デジタルアート創作

スケッチから油絵へ

手描きスケッチを指定スタイルの油絵作品に変換

元の構図を維持しつつスタイル変換を実現

コンセプトデザイン

簡単な線画から詳細なコンセプト図を生成

デザイン案の迅速な反復が可能

画像処理

画像強調

エッジガイダンスにより低品質画像のディテールを強化

画像の明瞭度と構造的完全性の改善

🚀 Controlnet - HED Boundary Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、HED境界を条件としたControlNetに対応しています。Stable Diffusionと組み合わせて使用することができます。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、当ライセンスの基礎となった the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

事前学習された大規模拡散モデルを制御し、追加の入力条件をサポートするためのニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でもロバストな学習が可能です。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、個人のデバイスでも学習できます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールできます。Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

公開されたチェックポイント

著者らは、Stable Diffusion v1 - 5 をベースに、異なるタイプの条件付けで学習された8つの異なるチェックポイントを公開しました。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/sd-controlnet-canny Cannyエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像
lllyasviel/sd-controlnet-depth Midas深度推定で学習	黒が深い領域、白が浅い領域を表すグレースケール画像
lllyasviel/sd-controlnet-hed HEDエッジ検出（ソフトエッジ）で学習	黒い背景に白いソフトエッジがあるモノクロ画像
lllyasviel/sd-controlnet-mlsd M - LSD線検出で学習	黒い背景に白い直線のみで構成されたモノクロ画像
lllyasviel/sd-controlnet-normal 法線マップで学習	法線マッピングされた画像
lllyasviel/sd-controlnet_openpose OpenPose骨格画像で学習	OpenPose骨格画像
lllyasviel/sd-controlnet_scribble 人間のスクライブで学習	黒い背景に白い輪郭がある手描きのモノクロ画像
lllyasviel/sd-controlnet_seg セマンティックセグメンテーションで学習	ADE20K のセグメンテーションプロトコル画像

💻 使用例

基本的な使用法

このチェックポイントは Stable Diffusion v1 - 5 で学習されているため、同モデルと組み合わせて使用することを推奨します。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

⚠️ 重要提示

画像を処理して補助条件を作成する場合は、以下に示すように外部依存関係が必要です。

https://github.com/patrickvonplaten/controlnet_aux をインストールします。

$ pip install controlnet_aux

diffusers と関連パッケージをインストールします。

$ pip install diffusers transformers accelerate

コードを実行します。

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import HEDdetector
from diffusers.utils import load_image

hed = HEDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-hed/resolve/main/images/man.png")


image = hed(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-hed", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# Remove if you do not have xformers installed
# see https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers
# for installation instructions
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("oil painting of handsome old man, masterpiece", image, num_inference_steps=20).images[0]

image.save('images/man_hed_out.png')