オープンソースControlNet v1.1モデル - 表面法線推定条件に基づく画像生成

ホーム

Control V11p Sd15 Normalbae

lllyasvielによって開発

ControlNet v1.1 は ControlNet v1.0 の後継モデルで、拡散モデルを制御するための追加条件をサポートし、表面法線推定に基づく画像生成が可能です。

画像生成その他オープンソースライセンス:Openrail #法線マップ制御 #画像から画像生成 #Stable Diffusion制御

ダウンロード数 7,981

リリース時間 : 4/14/2023

モデル概要

このモデルは Stable Diffusion v1.5 でトレーニングされた ControlNet バージョンで、表面法線画像条件を処理し、高品質な画像を生成するために特別に設計されています。

モデル特徴

表面法線条件制御

表面法線画像を条件入力として使用し、生成画像の幾何学的構造を精密に制御します。

Stable Diffusion との互換性

Stable Diffusion v1.5 専用に設計されており、シームレスに統合できます。

小規模データセットでの学習能力

小規模なデータセット（<5万サンプル）でもタスク固有の条件を堅牢に学習できます。

モデル能力

法線画像ベースの画像生成

幾何学的構造の精密制御

条件付き画像変換

使用事例

アート創作

コンセプトアート生成

法線画像を条件として使用し、高品質なコンセプトアートを生成します。

精密な幾何学的構造を持つアート画像を生成

製品デザイン

3Dモデルレンダリング

法線マップからリアルな製品レンダリングを生成します。

多角度の製品展示画像を迅速に生成

🚀 Controlnet - v1.1 - normalbae Version

Controlnet v1.1は、拡散モデルに追加条件を加えることで制御するニューラルネットワーク構造です。このモデルは、Stable Diffusionと組み合わせて使用することができ、画像生成における条件付き入力を可能にします。

🚀 クイックスタート

Controlnet v1.1は、Controlnet v1.0の後継モデルで、Lvmin Zhangによってlllyasviel/ControlNet-v1-1で公開されました。

このチェックポイントは、元のチェックポイントをdiffusers形式に変換したもので、Stable Diffusion v1-5などのStable Diffusionと組み合わせて使用することができます。

詳細については、🧨 Diffusers docsも参照してください。

このチェックポイントは、normalbae画像を条件としたControlNetに対応しています。

✨ 主な機能

ControlNetは、事前学習された大規模拡散モデルを制御して、追加の入力条件をサポートするニューラルネットワーク構造です。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、訓練データセットが小さい場合でも（< 50k）ロバストな学習が可能です。また、ControlNetの訓練は、拡散モデルの微調整と同じくらい速く、パーソナルデバイスで訓練することもできます。

📦 インストール

外部依存関係のインストール

画像を処理して補助条件を作成する場合は、以下の外部依存関係が必要です。

$ pip install controlnet_aux==0.3.0

diffusersと関連パッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import NormalBaeDetector

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15_normalbae"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15_normalbae/resolve/main/images/input.png"
)

prompt = "A head full of roses"
processor = NormalBaeDetector.from_pretrained("lllyasviel/Annotators")

control_image = processor(image)
control_image.save("./images/control.png")

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(33)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

高度な使用法

このチェックポイントは、Stable Diffusion v1-5で訓練されているため、これとの組み合わせが推奨されます。実験的には、dreamboothed stable diffusionなどの他の拡散モデルとも使用できます。

bird bird_canny bird_canny_out

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M licenseは、Open RAIL M licenseであり、BigScienceとthe RAIL Initiativeが共同で行っている責任あるAIライセンスの分野での作業から適応されています。また、このライセンスが基づいているthe article about the BLOOM Open RAIL licenseも参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

概要

Controlnetは、Lvmin ZhangとManeesh AgrawalaによるAdding Conditional Control to Text-to-Image Diffusion Modelsで提案されました。

概要は以下の通りです。

我々は、事前学習された大規模拡散モデルを制御して、追加の入力条件をサポートするニューラルネットワーク構造であるControlNetを提案します。ControlNetは、エンドツーエンドでタスク固有の条件を学習し、訓練データセットが小さい場合でも（< 50k）ロバストな学習が可能です。また、ControlNetの訓練は、拡散モデルの微調整と同じくらい速く、パーソナルデバイスで訓練することもできます。あるいは、強力な計算クラスターが利用可能な場合は、モデルを大量（数百万から数十億）のデータにスケールさせることができます。我々は、Stable Diffusionのような大規模拡散モデルにControlNetを追加することで、エッジマップ、セグメンテーションマップ、キーポイントなどの条件付き入力を可能にできることを報告します。これにより、大規模拡散モデルを制御する方法が豊富になり、関連するアプリケーションがさらに促進される可能性があります。

他の公開されたチェックポイントv1-1

著者らは、Stable Diffusion v1-5でそれぞれ異なるタイプの条件付きで訓練された14種類の異なるチェックポイントを公開しています。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	キャニーエッジ検出で訓練	黒い背景に白いエッジがあるモノクロ画像
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルへの指示で訓練	条件なし
lllyasviel/control_v11p_sd15_inpaint	画像のインペイントで訓練	条件なし
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出で訓練	注釈付きの線分がある画像
lllyasviel/control_v11f1p_sd15_depth	深度推定で訓練	深度情報がある画像（通常はグレースケール画像として表される）
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で訓練	表面法線情報がある画像（通常は色分けされた画像として表される）
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで訓練	セグメント化された領域がある画像（通常は色分けされた画像として表される）
lllyasviel/control_v11p_sd15_lineart	ラインアート生成で訓練	白い背景に黒い線があるラインアート画像
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメラインアート生成で訓練	アニメスタイルのラインアート画像
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で訓練	人体の姿勢がある画像（通常はキーポイントまたはスケルトンのセットとして表される）
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で訓練	スクリブルがある画像（通常はランダムまたはユーザーが描いたストローク）
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で訓練	ソフトエッジがある画像（通常はより絵画的または芸術的な効果を作成するため）
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで訓練	パッチまたは領域がシャッフルされた画像
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで訓練	ぼやけた画像または画像の一部