controlnet-depth-sdxl-1.0オープンソース画像生成モデル - 深度画像条件による高精度な出力制御

Controlnet Depth Sdxl 1.0

Developed by diffusers

Stable Diffusion XLをベースとしたControlNetモデルで、深度マップによる条件付きでの画像生成をサポートします。

Downloads 16.66k

Release Time : 8/12/2023

Model Overview

このモデルは、stabilityai/stable - diffusion - xl - base - 1.0をベースに訓練されたControlNetの重みで、深度条件制御下での画像生成に特化しており、写真レベルのリアリティを持つ画像合成を実現できます。

Model Features

深度条件制御

深度マップを通じて生成画像の幾何構造と空間関係を正確に制御します。

高解像度生成

1024x1024の高解像度画像生成をサポートします。

写真レベルのリアリティ

高度なリアリティを持つ画像を生成できます。

SDXLとの互換性

Stable Diffusion XL 1.0をベースに構築されており、元のモデルの強力な生成能力を維持しています。

Model Capabilities

深度条件付き画像生成

高解像度画像合成

写真レベルのリアリティレンダリング

テキストから画像への変換

Use Cases

クリエイティブデザイン

コンセプトアート制作

アーティストは深度マップを使って特定の構図のコンセプトアートを生成できます。

シーンの空間関係を正確に制御したアート画像

映画制作

シーンの事前ビジュアライゼーション

制作チームは深度マップを使ってシーンのプレビューを迅速に生成できます。

予想される空間レイアウトに合ったプレビュー画像

製品デザイン

製品プロトタイプのビジュアライゼーション

デザイナーは深度制御を使って製品の異なる角度の展示画像を生成できます。

幾何学的な一貫性を保った多角度の製品画像

🚀 SDXL-controlnet: Depth

このモデルは、StableDiffusionXLのベースモデルであるstabilityai/stable-diffusion-xl-base-1.0を深度条件付きで学習したControlNetの重みです。以下にいくつかのサンプル画像を示します。

プロンプト: spiderman lecture, photorealistic images_0)

🚀 クイックスタート

まずは必要なライブラリをインストールしましょう。

pip install accelerate transformers safetensors diffusers

それでは、以下のコードで使用を開始できます。

import torch
import numpy as np
from PIL import Image

from transformers import DPTFeatureExtractor, DPTForDepthEstimation
from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image


depth_estimator = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas").to("cuda")
feature_extractor = DPTFeatureExtractor.from_pretrained("Intel/dpt-hybrid-midas")
controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-depth-sdxl-1.0",
    variant="fp16",
    use_safetensors=True,
    torch_dtype=torch.float16,
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    vae=vae,
    variant="fp16",
    use_safetensors=True,
    torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

def get_depth_map(image):
    image = feature_extractor(images=image, return_tensors="pt").pixel_values.to("cuda")
    with torch.no_grad(), torch.autocast("cuda"):
        depth_map = depth_estimator(image).predicted_depth

    depth_map = torch.nn.functional.interpolate(
        depth_map.unsqueeze(1),
        size=(1024, 1024),
        mode="bicubic",
        align_corners=False,
    )
    depth_min = torch.amin(depth_map, dim=[1, 2, 3], keepdim=True)
    depth_max = torch.amax(depth_map, dim=[1, 2, 3], keepdim=True)
    depth_map = (depth_map - depth_min) / (depth_max - depth_min)
    image = torch.cat([depth_map] * 3, dim=1)

    image = image.permute(0, 2, 3, 1).cpu().numpy()[0]
    image = Image.fromarray((image * 255.0).clip(0, 255).astype(np.uint8))
    return image


prompt = "stormtrooper lecture, photorealistic"
image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")
controlnet_conditioning_scale = 0.5  # recommended for good generalization

depth_image = get_depth_map(image)

images = pipe(
    prompt, image=depth_image, num_inference_steps=30, controlnet_conditioning_scale=controlnet_conditioning_scale,
).images
images[0]

images[0].save(f"stormtrooper.png")