controlnet-canny-sdxl-1.0オープンソース画像生成モデル - Cannyエッジ検出を借りて画像出力を精密に制御

ホーム

Controlnet Canny Sdxl 1.0

diffusersによって開発

Stable Diffusion XLでトレーニングされたコントロールネットワークモデル、Cannyエッジ検出による精密な画像生成制御を実現

画像生成 #SDXLエッジ制御 #画像精密生成 #建築シーン設計

ダウンロード数 13.17k

リリース時間 : 8/1/2023

モデル概要

このモデルはStable Diffusion XLでトレーニングされたコントロールネットワークの重みで、Cannyエッジ検出条件を通じて画像生成プロセスを制御し、より正確な画像構図制御を実現します。

モデル特徴

精密なエッジ制御

Cannyエッジ検出アルゴリズムで画像輪郭を抽出し、生成画像の構図を精密に制御

高解像度サポート

1024ピクセル以上の高解像度画像生成をサポート、2段階トレーニングで最適化

SDXL互換

Stable Diffusion XLベースモデルを使用し、高品質な画像生成能力を維持

モデル能力

エッジ検出に基づく画像生成

高解像度画像合成

精密構図制御

使用事例

クリエイティブデザイン

コンセプトアート創作

アーティストがエッジスケッチでディテール豊かなコンセプトアート作品を生成

サンプル中の未来主義的な研究基地画像

プロダクトデザイン

デザイナーがシンプルな輪郭から高品質なプロダクトレンダリングを生成

写真拡張

写真レベルのシーン生成

エッジ情報に基づき写真レベルのリアルなシーンを生成

サンプル中のカップルの夕日シーンや女性のストリートスナップ画像

フィルムスタイルシミュレーション

特定のフィルムスタイル(例: コダックektar100)の高品質画像を生成

サンプル中の女性ストリートスナップや竜巻シーン

🚀 SDXL-controlnet: Canny

このプロジェクトは、Cannyコンディショニングを用いてstabilityai/stable-diffusion-xl-base-1.0上で学習されたControlNetの重みを提供します。以下にいくつかのサンプル画像を示します。

サンプル画像

プロンプト: a couple watching a romantic sunset, 4k photo
プロンプト: ultrarealistic shot of a furry blue bird
プロンプト: a woman, close up, detailed, beautiful, street photography, photorealistic, detailed, Kodak ektar 100, natural, candid shot
プロンプト: Cinematic, neoclassical table in the living room, cinematic, contour, lighting, highly detailed, winter, golden hour
プロンプト: a tornado hitting grass field, 1980's film grain. overcast, muted colors.

🚀 クイックスタート

まずは必要なライブラリをインストールしましょう。

pip install accelerate transformers safetensors opencv-python diffusers

その後、以下のコードを実行することで使用できます。

from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image
from PIL import Image
import torch
import numpy as np
import cv2

prompt = "aerial view, a futuristic research complex in a bright foggy jungle, hard lighting"
negative_prompt = 'low quality, bad quality, sketches'

image = load_image("https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/sd_controlnet/hf-logo.png")

controlnet_conditioning_scale = 0.5  # recommended for good generalization

controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-canny-sdxl-1.0",
    torch_dtype=torch.float16
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    vae=vae,
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

image = np.array(image)
image = cv2.Canny(image, 100, 200)
image = image[:, :, None]
image = np.concatenate([image, image, image], axis=2)
image = Image.fromarray(image)

images = pipe(
    prompt, negative_prompt=negative_prompt, image=image, controlnet_conditioning_scale=controlnet_conditioning_scale,
    ).images

images[0].save(f"hug_lab.png")

images_10)

詳細については、StableDiffusionXLControlNetPipelineの公式ドキュメントを参照してください。

🔧 技術詳細

学習

この学習スクリプトは、こちらで提供されている公式の学習スクリプトをベースに構築されています。

学習データ

このチェックポイントは、まず最大最小寸法が384にリサイズされたlaion 6aで20,000ステップ学習されました。その後、最大最小寸法が1024にリサイズされ、最小1024の画像のみを含むようにフィルタリングされたlaion 6aでさらに20,000ステップ学習されました。高解像度での微調整は画像品質に必要であることがわかりました。

コンピューティング環境

1台の8xA100マシン

バッチサイズ

データ並列で、単一GPUのバッチサイズは8、合計バッチサイズは64です。

ハイパーパラメータ

学習率は1e-4で一定で、バッチサイズでスケーリングされ、合計学習率は64e-4です。

混合精度

fp16

📄 ライセンス

ライセンスはopenrail++です。

属性	详情
モデルタイプ	SDXL-controlnet: Canny
学習データ	まず最大最小寸法が384にリサイズされたlaion 6aで20,000ステップ学習。その後、最大最小寸法が1024にリサイズされ、最小1024の画像のみを含むようにフィルタリングされたlaion 6aでさらに20,000ステップ学習。