🚀 Stable Diffusion v2 モデルカード
このモデルは、Hugging FaceによってAppleのリポジトリを使用して生成されました。このリポジトリはASCLライセンスです。
このモデルカードは、ここで入手可能なStable Diffusion v2モデルに関連する情報を中心に説明しています。
このモデルは、LAION-5Bのサブセットであり、露骨なポルノグラフィック素材がLAION-NSFW分類器を用いて punsafe=0.1
でフィルタリングされ、審美スコアが 4.5
以上のデータセットを使用して、解像度 256x256
で550kステップからゼロから学習されました。その後、同じデータセットの解像度 >= 512x512
の画像に対して、解像度 512x512
で850kステップの追加学習が行われました。

ここでの重みは、Apple Siliconハードウェアで使用するためにCore MLに変換されています。
Core MLの重みには4つのバリアントがあります。
coreml-stable-diffusion-2-base
├── original
│ ├── compiled # Swift推論、"original"アテンション
│ └── packages # Python推論、"original"アテンション
└── split_einsum
├── compiled # Swift推論、"split_einsum"アテンション
└── packages # Python推論、"split_einsum"アテンション
詳細については、https://huggingface.co/blog/diffusers-coreml を参照してください。
✨ 主な機能
このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
開発者 |
Robin Rombach, Patrick Esser |
モデルの種類 |
拡散ベースのテキストから画像生成モデル |
言語 |
英語 |
ライセンス |
CreativeML Open RAIL++-M License |
モデルの説明 |
これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。 |
詳細情報のリソース |
GitHubリポジトリ |
引用形式 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
用途
直接的な用途
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
- 生成モデルの制限やバイアスの調査と理解
- アートワークの生成とデザインやその他の芸術的プロセスでの使用
- 教育または創造的ツールでの応用
- 生成モデルに関する研究
除外される用途については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションは元々 DALLE-MINIモデルカード から引用されたもので、Stable Diffusion v1で使用されていましたが、Stable Diffusion v2にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはいけません。これには、人々が不快、苦痛、または不快感を感じると予想される画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように学習されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または拡散すること
- 本人の同意なしでの個人のなりすまし
- 見る人の同意なしでの性的コンテンツ
- 誤情報と偽情報
- 重大な暴力や残虐行為の表現
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること
制限とバイアス
制限
- このモデルは完全な写実性を達成しません。
- このモデルは読み取り可能なテキストをレンダリングできません。
- このモデルは、「青い球の上に赤い立方体」のような構成性を伴う難しいタスクではうまく機能しません。
- 顔や人物全体が適切に生成されない場合があります。
- このモデルは主に英語のキャプションで学習されており、他の言語ではうまく機能しません。
- このモデルのオートエンコーダー部分は損失があります。
- このモデルは大規模データセット LAION-5B のサブセットで学習されており、これには成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAIONのNFSW検出器を使用してデータセットをフィルタリングしています(学習セクションを参照)。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v2は主にLAION-2B(en)のサブセットで学習されており、これは英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。Stable Diffusion v2はバイアスを反映し、悪化させる程度が大きいため、入力やその意図に関係なく、閲覧者の裁量が必要です。
学習
学習データ
モデル開発者は、以下のデータセットをモデルの学習に使用しました。
- LAION-5Bとそのサブセット(詳細は以下)。学習データは、LAIONのNSFW検出器を使用してさらにフィルタリングされ、「p_unsafe」スコアが0.1(保守的)に設定されています。詳細については、LAION-5BのNeurIPS 2022論文とこのトピックに関するレビュアーの議論を参照してください。
学習手順
Stable Diffusion v2は、オートエンコーダーとオートエンコーダーの潜在空間で学習される拡散モデルを組み合わせた潜在拡散モデルです。学習中は以下のように行われます。
- 画像はエンコーダーによってエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状がH x W x 3の画像を形状がH/f x W/f x 4の潜在表現にマッピングします。
- テキストプロンプトはOpenCLIP-ViT/Hテキストエンコーダーによってエンコードされます。
- テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測の間の再構成目的です。また、いわゆる v-objective も使用しています(https://arxiv.org/abs/2202.00512 を参照)。
現在、以下のチェックポイントを提供しています。
-
512-base-ema.ckpt
: LAION-5Bのサブセットであり、露骨なポルノグラフィック素材がLAION-NSFW分類器を用いて punsafe=0.1
でフィルタリングされ、審美スコアが 4.5
以上のデータセットを使用して、解像度 256x256
で550kステップ学習。その後、同じデータセットの解像度 >= 512x512
の画像に対して、解像度 512x512
で850kステップの追加学習。
-
768-v-ema.ckpt
: 512-base-ema.ckpt
から再開し、同じデータセットでv-objectiveを使用して150kステップ学習。その後、データセットの 768x768
サブセットでさらに140kステップ学習。
-
512-depth-ema.ckpt
: 512-base-ema.ckpt
から再開し、200kステップの微調整。MiDaS (dpt_hybrid
) によって生成された(相対的な)深度予測を追加の条件として使用するために、追加の入力チャンネルを追加。U-Netのこの追加情報を処理する追加の入力チャンネルはゼロ初期化されています。
-
512-inpainting-ema.ckpt
: 512-base-ema.ckpt
から再開し、さらに200kステップ学習。LAMAに提示されたマスク生成戦略に従い、マスクされた画像の潜在VAE表現と組み合わせて、追加の条件として使用。U-Netのこの追加情報を処理する追加の入力チャンネルはゼロ初期化されています。同じ戦略が1.5-inpaintingチェックポイントの学習にも使用されています。
-
x4-upscaling-ema.ckpt
: LAIONの10Mサブセットであり、画像サイズが >2048x2048
のデータセットで1.25Mステップ学習。モデルはサイズ 512x512
のクロップで学習され、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_level
を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。
-
ハードウェア: 32 x 8 x A100 GPU
-
オプティマイザー: AdamW
-
勾配蓄積: 1
-
バッチ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000ステップで0.0001までウォームアップし、その後一定に維持
評価結果
異なる分類器フリーガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と50ステップのDDIMサンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

評価は、50 DDIMステップとCOCO2017検証セットからの10000個のランダムなプロンプトを使用し、解像度512x512で行われました。FIDスコアの最適化は行われていません。
環境への影響
Stable Diffusion v1の推定排出量
この情報に基づいて、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、以下のCO2排出量を推定しています。ハードウェア、ランタイム、クラウドプロバイダー、およびコンピュートリージョンを使用して、炭素排出量を推定しています。
- ハードウェアの種類: A100 PCIe 40GB
- 使用時間: 200000時間
- クラウドプロバイダー: AWS
- コンピュートリージョン: US-east
- 排出された炭素(電力消費 x 時間 x 電力網の位置に基づく炭素排出量): 15000 kg CO2 eq.
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin Rombach、Patrick Esser、およびDavid Haによって作成され、Stable Diffusion v1 と DALL-E Miniモデルカード をベースにしています。