Stable Diffusion 2 Depth Img2imgオープンソースモデル - テキストと深度マップで高品質な画像を生成

Stable Diffusion 2 Depth Img2img

radamesによって開発

深度情報に基づく画像生成・編集モデルで、テキストプロンプトと深度マップから高品質な画像を生成可能

ダウンロード数 30

リリース時間 : 5/16/2023

モデル概要

これは拡散モデルに基づく画像生成システムで、テキストプロンプトと入力深度マップに従って画像を生成または修正できます。モデルはStable Diffusion v2に深度情報処理能力を追加しており、幾何学的構造を保持する必要がある画像生成タスクに適しています。

モデル特徴

深度条件生成

MiDaSで生成した深度マップを追加入力条件として使用し、生成画像の幾何学的構造を保持

高品質画像生成

Stable Diffusion v2の強力な生成能力に基づき、高解像度で詳細な画像を生成可能

画像編集機能

元画像と深度情報に基づいた制御可能な画像修正をサポート

オープンライセンス

Open RAIL++ライセンスを採用し、研究・商業利用が可能（ライセンス条項に準拠する必要あり）

モデル能力

テキストガイド画像生成

深度条件画像生成

画像から画像への変換

アート創作

画像編集

使用事例

クリエイティブデザイン

コンセプトアート創作

アーティストが深度マップとテキストプロンプトを使用して迅速にコンセプトアートスケッチを生成

創作プロセスを加速し、多様なデザインオプションを提供

画像編集

画像スタイル変換

既存画像と深度情報に基づき、異なるアートスタイルを適用

元画像の構造を保持しながら視覚的スタイルを変更

教育研究

生成モデル研究

マルチモーダル条件生成モデルの性能と限界を研究

生成モデル分野の発展を推進

🚀 Stable Diffusion v2 モデルカード

このモデルカードは、Stable Diffusion v2 モデルに関連するモデルに焦点を当てています。このモデルはこちらで入手できます。

この stable-diffusion-2-depth モデルは、stable-diffusion-2-base (512-base-ema.ckpt) から再開され、200k ステップの微調整が行われています。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加入力チャネルが追加され、追加の条件付けとして使用されます。

stablediffusion リポジトリで使用する場合: こちらから 512-depth-ema.ckpt をダウンロードします。
🧨 diffusers で使用する場合

✨ 主な機能

テキストプロンプトに基づいて画像を生成および修正することができます。
追加の深度予測情報を利用して、より詳細な画像生成が可能です。

📦 インストール

`stablediffusion` リポジトリでの使用

こちらから 512-depth-ema.ckpt をダウンロードします。

`diffusers` での使用

pip install -U git+https://github.com/huggingface/transformers.git
pip install diffusers transformers accelerate scipy safetensors

💻 使用例

基本的な使用法

import torch
import requests
from PIL import Image
from diffusers import StableDiffusionDepth2ImgPipeline

pipe = StableDiffusionDepth2ImgPipeline.from_pretrained(
   "stabilityai/stable-diffusion-2-depth",
   torch_dtype=torch.float16,
).to("cuda")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
init_image = Image.open(requests.get(url, stream=True).raw)

prompt = "two tigers"
n_propmt = "bad, deformed, ugly, bad anotomy"
image = pipe(prompt=prompt, image=init_image, negative_prompt=n_propmt, strength=0.7).images[0]

注意事項

依存関係ではありませんが、メモリ効率の良いアテンション（パフォーマンス向上）のために、xformers のインストールを強くおすすめします。
GPU RAM が少ない場合、cuda に送った後に pipe.enable_attention_slicing() を追加すると、VRAM 使用量を減らすことができます（速度が低下する代わり）。

📚 ドキュメント

モデル詳細

属性	詳情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	CreativeML Open RAIL++-M License
モデル説明	これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。
詳細情報リソース	GitHub リポジトリ
引用方法	`bibtex<br>@InProceedings{Rombach_2022_CVPR,<br> author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},<br> title = {High-Resolution Image Synthesis With Latent Diffusion Models},<br> booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},<br> month = {June},<br> year = {2022},<br> pages = {10684-10695}<br>}<br>`

用途

直接利用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限とバイアスの調査と理解。
アートワークの生成とデザインやその他の芸術的プロセスでの使用。
教育または創造的ツールでの応用。
生成モデルに関する研究。

以下に除外される使用法を説明します。

誤用、悪意のある使用、および範囲外の使用

注: このセクションは元々 DALLE-MINI モデルカードから引用され、Stable Diffusion v1 で使用されていましたが、Stable Diffusion v2 にも同様に適用されます。

このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

範囲外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または拡散すること。
本人の同意なしでの個人のなりすまし。
見る人の同意なしでの性的コンテンツ。
誤情報とディスインフォメーション。
重大な暴力やグロテスクな表現。
著作権またはライセンスされた素材をその使用条件に違反して共有すること。
著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。

制限とバイアス

制限

完全な写実性を達成することはできません。
読み取り可能なテキストをレンダリングすることはできません。
「青い球体の上に赤い立方体」のような構成性を必要とする難しいタスクでは、パフォーマンスが低下します。
顔や人物全体が適切に生成されない場合があります。
主に英語のキャプションで訓練されているため、他の言語での動作は良好ではありません。
モデルのオートエンコーダー部分は損失があります。
モデルは大規模データセット LAION-5B のサブセットで訓練されており、これには成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAION の NFSW 検出器を使用してデータセットをフィルタリングしています（トレーニングセクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v2 は主に LAION-2B(en) のサブセットで訓練されており、これは英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して著しく低下します。Stable Diffusion v2 はバイアスを反映し、悪化させる程度が大きいため、入力やその意図に関係なく、閲覧者の裁量が必要です。

トレーニング

トレーニングデータ

モデル開発者は、以下のデータセットをモデルのトレーニングに使用しました。

LAION-5B とそのサブセット（詳細は以下）。トレーニングデータは、LAION の NSFW 検出器を使用してさらにフィルタリングされ、「p_unsafe」スコアが 0.1（保守的）に設定されています。詳細については、LAION-5B の NeurIPS 2022 論文とそのトピックに関するレビューアーの議論を参照してください。

トレーニング手順

Stable Diffusion v2 は、オートエンコーダーとオートエンコーダーの潜在空間で訓練された拡散モデルを組み合わせた潜在拡散モデルです。トレーニング中は以下の手順が行われます。

画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数 8 を使用し、形状 H x W x 3 の画像を形状 H/f x W/f x 4 の潜在表現にマッピングします。
テキストプロンプトは OpenCLIP-ViT/H テキストエンコーダーを通じてエンコードされます。
テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルの UNet バックボーンに入力されます。
損失は、潜在表現に追加されたノイズと UNet による予測の間の再構成目的です。また、いわゆる v-objective も使用しています（https://arxiv.org/abs/2202.00512 を参照）。

現在、以下のチェックポイントを提供しています。

512-base-ema.ckpt: LAION-5B のサブセットで、明示的なポルノグラフィック素材をフィルタリングした後、解像度 256x256 で 550k ステップ、解像度 >= 512x512 の同じデータセットで 850k ステップの訓練を行っています。
768-v-ema.ckpt: 512-base-ema.ckpt から再開され、同じデータセットで v-objective を使用して 150k ステップの訓練を行い、その後、データセットの 768x768 サブセットでさらに 140k ステップの訓練を行っています。
512-depth-ema.ckpt: 512-base-ema.ckpt から再開され、200k ステップの微調整が行われています。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加入力チャネルが追加され、追加の条件付けとして使用されます。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。
512-inpainting-ema.ckpt: 512-base-ema.ckpt から再開され、さらに 200k ステップの訓練を行っています。LAMA で提示されたマスク生成戦略に従い、マスクされた画像の潜在 VAE 表現と組み合わせて、追加の条件付けとして使用されます。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。同じ戦略が 1.5-inpainting チェックポイントの訓練にも使用されています。
x4-upscaling-ema.ckpt: LAION の 10M サブセットで、画像 >2048x2048 を含むデータセットで 1.25M ステップの訓練を行っています。モデルはサイズ 512x512 のクロップで訓練され、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_level を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。
ハードウェア: 32 x 8 x A100 GPUs
オプティマイザー: AdamW
勾配蓄積: 1
バッチ: 32 x 8 x 2 x 4 = 2048
学習率: 10,000 ステップで 0.0001 にウォームアップし、その後一定に保たれます。

評価結果

異なる分類器フリーガイダンススケール（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）と 50 ステップの DDIM サンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

pareto

COCO2017 検証セットからの 10000 個のランダムなプロンプトを使用して、50 ステップの DDIM で評価され、解像度 512x512 で評価されています。FID スコアには最適化されていません。

環境への影響

Stable Diffusion v1 推定排出量

この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下の CO2 排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンを利用して、炭素排出量を推定しています。

ハードウェアタイプ: A100 PCIe 40GB
使用時間: 200000 時間
クラウドプロバイダー: AWS
コンピュートリージョン: US-east
排出された炭素（電力消費 x 時間 x 電力網の位置に基づく炭素排出量）: 15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

このモデルカードは、Robin Rombach、Patrick Esser、および David Ha によって作成され、Stable Diffusion v1 および DALL-E Mini モデルカードに基づいています。