control_v11p_sd15s2_lineart_animeオープンソースモデル - アニメの線画で画像生成を制御！

ホーム

Control V11p Sd15s2 Lineart Anime

lllyasvielによって開発

ControlNet v1.1のアニメ線画バージョン、アニメ線画画像を通じてStable Diffusionの画像生成を制御します。

画像生成その他オープンソースライセンス:Openrail #アニメ線画制御 #画像から画像生成 #Stable Diffusion拡張

ダウンロード数 7,376

リリース時間 : 4/14/2023

モデル概要

このモデルはStable Diffusion v1-5でトレーニングされたControlNetで、アニメ線画画像の条件制御に特化しており、線画をカラー画像に変換できます。

モデル特徴

アニメ線画制御

アニメスタイルの線画に最適化されており、元の線画構造を正確に保持しながらカラー画像を生成できます。

Stable Diffusion互換

Stable Diffusion v1-5でトレーニングされており、元のモデルとシームレスに連携できます。

エンドツーエンド学習

小規模データセット（5万サンプル未満）からタスク固有の条件を効果的に学習できます。

モデル能力

アニメ線画画像変換

画像スタイル変換

条件付き画像生成

アート創作支援

使用事例

デジタルアート創作

アニメ線画彩色

白黒のアニメ線画を自動的にカラー画像に変換

元の線画構造を保持しながら適切な色彩を追加

アニメスタイル変換

線画に基づいて異なるスタイルのアニメ画像を生成

構図を変えずにアートスタイルを変更可能

ゲーム開発

キャラクターデザイン支援

キャラクターデザインのバリエーションを迅速に生成

線画に基づいて複数の配色パターンを生成

🚀 Controlnet - v1.1 - lineart_anime Version

ControlNetは、追加の条件を加えることで拡散モデルを制御するニューラルネットワーク構造です。このモデルは、Stable Diffusionと組み合わせて使用することができ、特定のスタイルや条件に基づいた画像生成を可能にします。

🚀 クイックスタート

Controlnet v1.1 は、Lvmin Zhangによって lllyasviel/ControlNet-v1-1 でリリースされました。

このチェックポイントは、元のチェックポイントを diffusers 形式に変換したものです。Stable Diffusion、例えば runwayml/stable-diffusion-v1-5 と組み合わせて使用することができます。

詳細については、🧨 Diffusers docs も参照してください。

このチェックポイントは、lineart_anime画像 を条件としたControlNetに対応しています。

✨ 主な機能

ControlNetは、追加の条件を加えることで拡散モデルを制御することができます。これにより、エッジマップ、セグメンテーションマップ、キーポイントなどの条件入力を使用して、画像生成をより細かく制御することができます。

📦 インストール

外部依存関係のインストール

画像を処理して補助条件を作成するには、以下の外部依存関係が必要です。

$ pip install controlnet_aux==0.3.0

`diffusers` と関連パッケージのインストール

$ pip install diffusers transformers accelerate

💻 使用例

基本的な使用法

import torch
import os
from huggingface_hub import HfApi
from pathlib import Path
from diffusers.utils import load_image
from PIL import Image
import numpy as np
from controlnet_aux import LineartAnimeDetector
from transformers import CLIPTextModel

from diffusers import (
    ControlNetModel,
    StableDiffusionControlNetPipeline,
    UniPCMultistepScheduler,
)

checkpoint = "lllyasviel/control_v11p_sd15s2_lineart_anime"

image = load_image(
    "https://huggingface.co/lllyasviel/control_v11p_sd15s2_lineart_anime/resolve/main/images/input.png"
)
image = image.resize((512, 512))

prompt = "A warrior girl in the jungle"
processor = LineartAnimeDetector.from_pretrained("lllyasviel/Annotators")

control_image = processor(image)
control_image.save("./images/control.png")

# we skip one layer of the encoder
text_encoder = CLIPTextModel.from_pretrained("runwayml/stable-diffusion-v1-5", subfolder="text_encoder", num_hidden_layers=11, torch_dtype=torch.float16)

controlnet = ControlNetModel.from_pretrained(checkpoint, torch_dtype=torch.float16)

pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5", text_encoder=text_encoder, controlnet=controlnet, torch_dtype=torch.float16
)

pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

generator = torch.manual_seed(0)
image = pipe(prompt, num_inference_steps=30, generator=generator, image=control_image).images[0]

image.save('images/image_out.png')

bird

bird_canny

bird_canny_out

📚 ドキュメント

モデル詳細

属性	详情
開発者	Lvmin Zhang, Maneesh Agrawala
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license は、Open RAIL M license であり、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野の作業から適応されています。詳細は the article about the BLOOM Open RAIL license も参照してください。
詳細情報のリソース	GitHub Repository, Paper
引用形式	@misc{zhang2023adding, title={Adding Conditional Control to Text-to-Image Diffusion Models}, author={Lvmin Zhang and Maneesh Agrawala}, year={2023}, eprint={2302.05543}, archivePrefix={arXiv}, primaryClass={cs.CV} }

他のリリースされたチェックポイント v1-1

著者らは、Stable Diffusion v1-5 を使用して、異なるタイプの条件付きで学習された14種類の異なるチェックポイントをリリースしました。

モデル名	制御画像の概要	条件画像
lllyasviel/control_v11p_sd15_canny	Cannyエッジ検出で学習	黒い背景に白いエッジがあるモノクロ画像
lllyasviel/control_v11e_sd15_ip2p	ピクセルからピクセルへの指示で学習	条件なし
lllyasviel/control_v11p_sd15_inpaint	画像インペイントで学習	条件なし
lllyasviel/control_v11p_sd15_mlsd	多レベル線分検出で学習	注釈付きの線分がある画像
lllyasviel/control_v11f1p_sd15_depth	深度推定で学習	深度情報がある画像（通常はグレースケール画像として表される）
lllyasviel/control_v11p_sd15_normalbae	表面法線推定で学習	表面法線情報がある画像（通常は色分けされた画像として表される）
lllyasviel/control_v11p_sd15_seg	画像セグメンテーションで学習	セグメント化された領域がある画像（通常は色分けされた画像として表される）
lllyasviel/control_v11p_sd15_lineart	線画生成で学習	線画がある画像（通常は白い背景に黒い線）
lllyasviel/control_v11p_sd15s2_lineart_anime	アニメ線画生成で学習	アニメスタイルの線画がある画像
lllyasviel/control_v11p_sd15_openpose	人体姿勢推定で学習	人体の姿勢がある画像（通常はキーポイントまたはスケルトンのセットとして表される）
lllyasviel/control_v11p_sd15_scribble	スクリブルベースの画像生成で学習	スクリブルがある画像（通常はランダムまたはユーザーが描いた線）
lllyasviel/control_v11p_sd15_softedge	ソフトエッジ画像生成で学習	ソフトエッジがある画像（通常はより絵画的または芸術的な効果を作成するため）
lllyasviel/control_v11e_sd15_shuffle	画像シャッフルで学習	パッチまたは領域がシャッフルされた画像
lllyasviel/control_v11f1e_sd15_tile	画像タイリングで学習	ぼやけた画像または画像の一部