モデル概要
モデル特徴
モデル能力
使用事例
🚀 Stable Diffusion v2 モデルカード
このモデルカードは、Stable Diffusion v2 モデルに関連するモデルに焦点を当てています。このモデルはこちらで入手できます。
この stable-diffusion-2-depth
モデルは、stable-diffusion-2-base (512-base-ema.ckpt
) から再開され、200k ステップの微調整が行われています。MiDaS (dpt_hybrid
) によって生成された(相対的な)深度予測を処理するための追加入力チャネルが追加され、追加の条件付けとして使用されます。
stablediffusion
リポジトリで使用する場合: こちらから512-depth-ema.ckpt
をダウンロードします。- 🧨
diffusers
で使用する場合
✨ 主な機能
- テキストプロンプトに基づいて画像を生成および修正することができます。
- 追加の深度予測情報を利用して、より詳細な画像生成が可能です。
📦 インストール
stablediffusion
リポジトリでの使用
こちらから 512-depth-ema.ckpt
をダウンロードします。
diffusers
での使用
pip install -U git+https://github.com/huggingface/transformers.git
pip install diffusers transformers accelerate scipy safetensors
💻 使用例
基本的な使用法
import torch
import requests
from PIL import Image
from diffusers import StableDiffusionDepth2ImgPipeline
pipe = StableDiffusionDepth2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-2-depth",
torch_dtype=torch.float16,
).to("cuda")
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
init_image = Image.open(requests.get(url, stream=True).raw)
prompt = "two tigers"
n_propmt = "bad, deformed, ugly, bad anotomy"
image = pipe(prompt=prompt, image=init_image, negative_prompt=n_propmt, strength=0.7).images[0]
注意事項
- 依存関係ではありませんが、メモリ効率の良いアテンション(パフォーマンス向上)のために、xformers のインストールを強くおすすめします。
- GPU RAM が少ない場合、
cuda
に送った後にpipe.enable_attention_slicing()
を追加すると、VRAM 使用量を減らすことができます(速度が低下する代わり)。
📚 ドキュメント
モデル詳細
属性 | 詳情 |
---|---|
開発者 | Robin Rombach, Patrick Esser |
モデルタイプ | 拡散ベースのテキストから画像への生成モデル |
言語 | 英語 |
ライセンス | CreativeML Open RAIL++-M License |
モデル説明 | これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。 |
詳細情報リソース | GitHub リポジトリ |
引用方法 | bibtex<br>@InProceedings{Rombach_2022_CVPR,<br> author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},<br> title = {High-Resolution Image Synthesis With Latent Diffusion Models},<br> booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},<br> month = {June},<br> year = {2022},<br> pages = {10684-10695}<br>}<br> |
用途
直接利用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限とバイアスの調査と理解。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的ツールでの応用。
- 生成モデルに関する研究。
以下に除外される使用法を説明します。
誤用、悪意のある使用、および範囲外の使用
注: このセクションは元々 DALLE-MINI モデルカード から引用され、Stable Diffusion v1 で使用されていましたが、Stable Diffusion v2 にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または拡散すること。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしでの性的コンテンツ。
- 誤情報とディスインフォメーション。
- 重大な暴力やグロテスクな表現。
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること。
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- 完全な写実性を達成することはできません。
- 読み取り可能なテキストをレンダリングすることはできません。
- 「青い球体の上に赤い立方体」のような構成性を必要とする難しいタスクでは、パフォーマンスが低下します。
- 顔や人物全体が適切に生成されない場合があります。
- 主に英語のキャプションで訓練されているため、他の言語での動作は良好ではありません。
- モデルのオートエンコーダー部分は損失があります。
- モデルは大規模データセット LAION-5B のサブセットで訓練されており、これには成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAION の NFSW 検出器を使用してデータセットをフィルタリングしています(トレーニングセクションを参照)。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v2 は主に LAION-2B(en) のサブセットで訓練されており、これは英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して著しく低下します。Stable Diffusion v2 はバイアスを反映し、悪化させる程度が大きいため、入力やその意図に関係なく、閲覧者の裁量が必要です。
トレーニング
トレーニングデータ
モデル開発者は、以下のデータセットをモデルのトレーニングに使用しました。
- LAION-5B とそのサブセット(詳細は以下)。トレーニングデータは、LAION の NSFW 検出器を使用してさらにフィルタリングされ、「p_unsafe」スコアが 0.1(保守的)に設定されています。詳細については、LAION-5B の NeurIPS 2022 論文とそのトピックに関するレビューアーの議論を参照してください。
トレーニング手順
Stable Diffusion v2 は、オートエンコーダーとオートエンコーダーの潜在空間で訓練された拡散モデルを組み合わせた潜在拡散モデルです。トレーニング中は以下の手順が行われます。
- 画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数 8 を使用し、形状 H x W x 3 の画像を形状 H/f x W/f x 4 の潜在表現にマッピングします。
- テキストプロンプトは OpenCLIP-ViT/H テキストエンコーダーを通じてエンコードされます。
- テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルの UNet バックボーンに入力されます。
- 損失は、潜在表現に追加されたノイズと UNet による予測の間の再構成目的です。また、いわゆる v-objective も使用しています(https://arxiv.org/abs/2202.00512 を参照)。
現在、以下のチェックポイントを提供しています。
-
512-base-ema.ckpt
: LAION-5B のサブセットで、明示的なポルノグラフィック素材をフィルタリングした後、解像度256x256
で 550k ステップ、解像度>= 512x512
の同じデータセットで 850k ステップの訓練を行っています。 -
768-v-ema.ckpt
:512-base-ema.ckpt
から再開され、同じデータセットで v-objective を使用して 150k ステップの訓練を行い、その後、データセットの768x768
サブセットでさらに 140k ステップの訓練を行っています。 -
512-depth-ema.ckpt
:512-base-ema.ckpt
から再開され、200k ステップの微調整が行われています。MiDaS (dpt_hybrid
) によって生成された(相対的な)深度予測を処理するための追加入力チャネルが追加され、追加の条件付けとして使用されます。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。 -
512-inpainting-ema.ckpt
:512-base-ema.ckpt
から再開され、さらに 200k ステップの訓練を行っています。LAMA で提示されたマスク生成戦略に従い、マスクされた画像の潜在 VAE 表現と組み合わせて、追加の条件付けとして使用されます。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。同じ戦略が 1.5-inpainting チェックポイント の訓練にも使用されています。 -
x4-upscaling-ema.ckpt
: LAION の 10M サブセットで、画像>2048x2048
を含むデータセットで 1.25M ステップの訓練を行っています。モデルはサイズ512x512
のクロップで訓練され、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_level
を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。 -
ハードウェア: 32 x 8 x A100 GPUs
-
オプティマイザー: AdamW
-
勾配蓄積: 1
-
バッチ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000 ステップで 0.0001 にウォームアップし、その後一定に保たれます。
評価結果
異なる分類器フリーガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と 50 ステップの DDIM サンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。
COCO2017 検証セットからの 10000 個のランダムなプロンプトを使用して、50 ステップの DDIM で評価され、解像度 512x512 で評価されています。FID スコアには最適化されていません。
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下の CO2 排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンを利用して、炭素排出量を推定しています。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 200000 時間
- クラウドプロバイダー: AWS
- コンピュートリージョン: US-east
- 排出された炭素(電力消費 x 時間 x 電力網の位置に基づく炭素排出量): 15000 kg CO2 eq.
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin Rombach、Patrick Esser、および David Ha によって作成され、Stable Diffusion v1 および DALL-E Mini モデルカード に基づいています。

