オープンソースのcontrolnet-canny-sdxl-1.0-smallモデル - Cannyエッジ検出で制御し、小型で効率的！

ホーム

Controlnet Canny Sdxl 1.0 Small

diffusersによって開発

Stable Diffusion XLでトレーニングされた小型制御ネットワーク、Cannyエッジ検出条件制御専用、オリジナルXL制御ネットワークより7倍小型

画像生成 #Cannyエッジ制御 #SDXL軽量化最適化 #画像生成制御

ダウンロード数 567

リリース時間 : 8/15/2023

モデル概要

このモデルはStable Diffusion XLの軽量制御ネットワーク版で、Cannyエッジ検出による精密な画像生成制御に特化しています。オリジナルSDXLの強力な生成能力を保持しつつ、モデルサイズを大幅に削減しました。

モデル特徴

軽量設計

オリジナルXL制御ネットワークより7倍小型で、リソースが限られた環境に最適

精密エッジ制御

Cannyエッジ検出による高精度な画像構造制御

SDXL特性保持

stabilityai/stable-diffusion-xl-base-1.0でトレーニング、オリジナルモデルの強力な生成能力を保持

実験的性質

モデルはまだ実験段階で、コミュニティによるさらなる最適化と改善が期待されます

モデル能力

エッジ検出に基づく画像生成

高精度構造制御

写真級リアルな画像生成

芸術的スタイルの画像生成

使用事例

クリエイティブデザイン

コンセプトアート創作

エッジスケッチから完全なアートコンセプト図を生成

例では未来主義的な研究基地の鳥瞰図を展示

ポートレート写真強化

エッジ輪郭に基づく高品質ポートレート写真生成

クローズアップ女性ポートレートの写真級リアルさを展示

映画・ゲーム

キャラクターデザイン

簡単な線画から完全なキャラクターイメージを生成

例では黙示録世界のメガトロン形象を展示

シーンデザイン

エッジ図に基づく複雑なシーン生成

例では廃墟都市の背景を展示

🚀 Small SDXL-controlnet: Canny

このモデルは、stabilityai/stable-diffusion-xl-base-1.0をベースに、Cannyエッジ検出を用いて学習された小型のControlNetの重みです。このチェックポイントは、元のXL ControlNetチェックポイントよりも7倍小さいです。以下にいくつかのサンプル画像を示します。

サンプル画像

プロンプト: aerial view, a futuristic research complex in a bright foggy jungle, hard lighting
プロンプト: a woman, close up, detailed, beautiful, street photography, photorealistic, detailed, Kodak ektar 100, natural, candid shot
プロンプト: megatron in an apocalyptic world ground, runied city in the background, photorealistic
プロンプト: a couple watching sunset, 4k photo

🚀 クイックスタート

まずは必要なライブラリをインストールしましょう。

pip install accelerate transformers safetensors opencv-python diffusers

そして、以下のコードを実行します。

from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image
from PIL import Image
import torch
import numpy as np
import cv2

prompt = "aerial view, a futuristic research complex in a bright foggy jungle, hard lighting"
negative_prompt = "low quality, bad quality, sketches"

image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")

controlnet_conditioning_scale = 0.5  # 汎化性能を高めるために推奨される値

controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-canny-sdxl-1.0-small",
    torch_dtype=torch.float16
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    vae=vae,
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

image = np.array(image)
image = cv2.Canny(image, 100, 200)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

images = pipe(
    prompt, negative_prompt=negative_prompt, image=image, controlnet_conditioning_scale=controlnet_conditioning_scale,
).images

images[0].save(f"hug_lab.png")

hug_lab_grid)

詳細については、StableDiffusionXLControlNetPipelineの公式ドキュメントを参照してください。

⚠️ 重要提示

このチェックポイントは実験的なものであり、改善の余地がたくさんあります。コミュニティの皆さんには、これをベースに開発を行い、改善していただき、フィードバックを提供していただけると幸いです。

🔧 技術詳細

学習方法

このモデルの学習スクリプトは、こちらにある公式の学習スクリプトをベースに構築されています。完全な詳細については、このスクリプトを参照してください。

このチェックポイントでは蒸留を行っていません。SDXL UNetから初期化された小型のControlNetを使用しています。コミュニティの皆さんにも蒸留を試していただきたいです。この点に関しては、このリソースが役立つかもしれません。
ControlNetの初期化方法について詳しく知りたい場合は、このコードブロックを参照してください。
このモデルには注意ブロックがありません。
このモデルは、ほとんどの条件付き画像で良好に機能します。ただし、より複雑な条件付けの場合は、より大きなチェックポイントの方が適しているかもしれません。私たちはこのチェックポイントの品質向上に引き続き取り組んでおり、コミュニティからのフィードバックを求めています。
画像生成の品質を向上させるために、controlnet_conditioning_scaleとguidance_scaleの引数を調整することをおすすめします。