sd - controlnet - mlsdオープンソースモデル - 直線検出条件に基づく制御で、画像生成と創作を支援！

Sd Controlnet Mlsd

lllyasvielによって開発

ControlNetは追加条件を付与することで拡散モデルを制御するニューラルネットワーク構造であり、このチェックポイントはM-LSD直線検出条件に基づいて訓練されたControlNetモデルに対応しています。

画像生成その他オープンソースライセンス:Openrail #直線制御による画像生成 #建築線条の最適化 #M-LSD検出ベース

ダウンロード数 1,188

リリース時間 : 2/24/2023

モデル概要

ControlNetはタスク固有の条件をエンドツーエンドで学習し、Stable Diffusionなどの大規模拡散モデルを強化し、エッジマップ、セグメンテーションマップ、キーポイントなどの条件入力を可能にすることで、大規模拡散モデルの制御方法を豊かにします。

モデル特徴

条件制御

M-LSD直線検出などの追加条件を付与することで拡散モデルを制御し、より精密な画像生成を実現します。

小規模データセット訓練

訓練データセットが小規模（5万未満）であっても堅牢性を維持し、訓練速度は拡散モデルの微調整と同等です。

拡張性

強力な計算クラスターのサポートにより、数百万から数十億レベルのデータ量に拡張可能です。

モデル能力

画像から画像生成

条件制御による画像生成

直線検出

使用事例

アート創作

インテリアデザイン

直線検出結果に基づいてインテリアデザインの効果図を生成します。

直線構造に準拠したインテリアデザイン画像を生成します。

建築設計

建築スケッチ生成

直線検出結果に基づいて建築スケッチを生成します。

直線構造に準拠した建築スケッチを生成します。

🚀 Controlnet - M-LSD Straight Line Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このチェックポイントは、M-LSD直線検出を条件としたControlNetに対応しています。Stable Diffusionと組み合わせて使用することができます。

🚀 クイックスタート

このチェックポイントはStable Diffusion v1 - 5で学習されているため、同モデルとの組み合わせでの使用を推奨します。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

必要な依存関係のインストール

https://github.com/patrickvonplaten/controlnet_aux をインストールします。

$ pip install controlnet_aux

diffusers と関連パッケージをインストールします。

$ pip pip install diffusers transformers accelerate

コードの実行

from PIL import Image
from diffusers import StableDiffusionControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import MLSDdetector
from diffusers.utils import load_image

mlsd = MLSDdetector.from_pretrained('lllyasviel/ControlNet')

image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-mlsd/resolve/main/images/room.png")

image = mlsd(image)

controlnet = ControlNetModel.from_pretrained(
    "lllyasviel/sd-controlnet-mlsd", torch_dtype=torch.float16
)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, safety_checker=None, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)

# xformersがインストールされていない場合は削除してください
# インストール手順については https://huggingface.co/docs/diffusers/v0.13.0/en/optimization/xformers#installing-xformers を参照してください
pipe.enable_xformers_memory_efficient_attention()

pipe.enable_model_cpu_offload()

image = pipe("room", image, num_inference_steps=20).images[0]

image.save('images/room_mlsd_out.png')

room room_mlsd room_mlsd_out

✨ 主な機能

ControlNetは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造です。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合でもロバストな学習が可能です。また、ControlNetの学習は拡散モデルの微調整と同じくらい速く、個人のデバイスでも学習できます。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、当ライセンスのベースとなった the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

導入

Controlnetは、Lvmin ZhangとManeesh Agrawalaによる Adding Conditional Control to Text-to-Image Diffusion Models で提案されました。

概要は以下の通りです。

私たちは、事前学習された大規模拡散モデルを制御して追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、タスク固有の条件をエンドツーエンドで学習し、学習データセットが小さい場合（< 50k）でも学習がロバストです。さらに、ControlNetの学習は拡散モデルの微調整と同じくらい速く、モデルは個人のデバイスで学習できます。あるいは、強力な計算クラスターが利用可能な場合、モデルは大量（数百万から数十億）のデータにスケールできます。Stable Diffusionのような大規模拡散モデルにControlNetsを追加して、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

公開されたチェックポイント

著者らは、Stable Diffusion v1 - 5 でそれぞれ異なるタイプの条件付き学習を行った8つの異なるチェックポイントを公開しています。

モデル名	制御画像の概要	制御画像の例	生成画像の例
lllyasviel/sd-controlnet-canny Cannyエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-depth Midas深度推定で学習	黒が深い領域、白が浅い領域を表すグレースケール画像。
lllyasviel/sd-controlnet-hed HEDエッジ検出（ソフトエッジ）で学習	黒い背景に白いソフトエッジがあるモノクロ画像。
lllyasviel/sd-controlnet-mlsd M-LSD直線検出で学習	黒い背景に白い直線のみで構成されたモノクロ画像。
lllyasviel/sd-controlnet-normal 法線マップで学習	法線マッピングされた画像。
lllyasviel/sd-controlnet_openpose OpenPose骨格画像で学習	OpenPose骨格画像。
lllyasviel/sd-controlnet_scribble 人間のスクライブで学習	黒い背景に白い輪郭がある手書きのモノクロ画像。
lllyasviel/sd-controlnet_seg セマンティックセグメンテーションで学習	ADE20Kのセグメンテーションプロトコル画像。

学習

ハフ直線モデルは、60万のエッジ画像とキャプションのペアで学習されました。データセットはPlaces2から生成され、BLIPを使用してテキストキャプションを生成し、深層ハフ変換を使用してエッジ画像を生成しました。モデルは、Nvidia A100 80Gを使用して160GPU時間学習され、Cannyモデルをベースモデルとして使用しています。