🚀 Stable Diffusion v1-4 モデルカード
Stable Diffusionは、任意のテキスト入力に基づいて写真のようにリアルな画像を生成できる潜在的なテキスト-to-画像拡散モデルです。このモデルは、Appleのリポジトリを使用してHugging Faceによって生成され、ASCLが適用されています。
Stable-Diffusion-v1-4 チェックポイントは、Stable-Diffusion-v1-2 チェックポイントの重みで初期化され、その後、解像度512x512で225,000ステップ、「laion-aesthetics v2 5+」で微調整され、テキストコンディショニングの10%をドロップして、分類器フリーガイダンスサンプリングを改善しています。
ここにある重みは、Apple Siliconハードウェアで使用するためにCore MLに変換されています。
Core MLの重みには4つのバリアントがあります。
coreml-stable-diffusion-v1-4
├── original
│ ├── compiled # Swift推論、"original"アテンション
│ └── packages # Python推論、"original"アテンション
└── split_einsum
├── compiled # Swift推論、"split_einsum"アテンション
└── packages # Python推論、"split_einsum"アテンション
詳細は、https://huggingface.co/blog/diffusers-coreml を参照してください。
🧨 Diffusersライブラリ用の重みが必要な場合は、代わりにこのモデルを参照してください。
✨ 主な機能
このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。また、研究目的での使用を意図しており、有害なコンテンツを生成する可能性のあるモデルの安全な展開や、生成モデルの限界やバイアスの調査など、様々な研究分野やタスクに役立ちます。
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
開発者 |
Robin Rombach, Patrick Esser |
モデルタイプ |
拡散ベースのテキスト-to-画像生成モデル |
言語 |
英語 |
ライセンス |
The CreativeML OpenRAIL M license は、Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。 |
モデルの説明 |
これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。 |
詳細情報のリソース |
GitHub Repository, Paper |
引用形式 |
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} } |
使用方法
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開
- 生成モデルの限界やバイアスの調査と理解
- アートワークの生成とデザインやその他の芸術的プロセスでの使用
- 教育用または創造的なツールでのアプリケーション
- 生成モデルに関する研究
除外される使用方法については以下で説明します。
誤用、悪意のある使用、および範囲外の使用
注: このセクションは DALLE-MINIモデルカード から引用されていますが、Stable Diffusionにも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成
- 差別的なコンテンツまたは有害なステレオタイプの意図的な促進または拡散
- 本人の同意なしでの個人のなりすまし
- 見る人の同意なしの性的コンテンツ
- 誤情報と虚偽情報
- 重大な暴力やグロテスクな表現
- 著作権またはライセンスされた素材の使用条件に違反した共有
- 著作権またはライセンスされた素材の改変コンテンツの使用条件に違反した共有
限界とバイアス
限界
- モデルは完全な写真のようなリアリズムを達成しません
- モデルは読み取り可能なテキストをレンダリングできません
- モデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません
- 顔や人全体が適切に生成されない場合があります
- モデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません
- モデルのオートエンコーダ部分は損失があります
- モデルは大規模データセット LAION-5B で訓練されており、これには成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません
- データセットの重複排除に追加の対策は使用されていません。その結果、訓練データに重複する画像についてある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は LAION-2B(en) のサブセットで訓練されており、これは主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に劣ります。
セーフティモジュール
このモデルの意図された使用方法は、Diffusersの Safety Checker を使用することです。このチェッカーは、モデルの出力を既知のハードコードされた不適切なコンテンツの概念と照合することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは画像生成 後 の CLIPTextModel
の埋め込み空間における有害な概念のクラス確率を比較します。これらの概念は生成された画像とともにモデルに渡され、各不適切なコンテンツの概念に対する手動で設計された重みと比較されます。
訓練
訓練データ
モデル開発者は、モデルの訓練に以下のデータセットを使用しました。
- LAION-2B (en) およびそのサブセット(次のセクションを参照)
訓練手順
Stable Diffusion v1-4は、オートエンコーダとオートエンコーダの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。訓練中は以下のように行われます。
- 画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状が H x W x 3 の画像を形状が H/f x W/f x 4 の潜在表現にマッピングします。
- テキストプロンプトはViT-L/14テキストエンコーダを通じてエンコードされます。
- テキストエンコーダの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。
現在、以下のように訓練された4つのチェックポイントを提供しています。
-
stable-diffusion-v1-1
: laion2B-en で解像度 256x256
で237,000ステップ。laion-high-resolution(LAION-5Bから解像度 >= 1024x1024
の170Mの例)で解像度 512x512
で194,000ステップ。
-
stable-diffusion-v1-2
: stable-diffusion-v1-1
から再開。「laion-improved-aesthetics」(laion2B-enのサブセットで、元のサイズ >= 512x512
、推定美学スコア > 5.0
、推定ウォーターマーク確率 < 0.5
の画像にフィルタリングされています。ウォーターマークの推定はLAION-5Bのメタデータから、美学スコアは 改良された美学推定器 を使用して推定されています)で解像度 512x512
で515,000ステップ。
-
stable-diffusion-v1-3
: stable-diffusion-v1-2
から再開。「laion-improved-aesthetics」で解像度 512x512
で195,000ステップ、テキストコンディショニングの10%をドロップして 分類器フリーガイダンスサンプリング を改善します。
-
stable-diffusion-v1-4
stable-diffusion-v1-2
から再開。「laion-aesthetics v2 5+」で解像度 512x512
で225,000ステップ、テキストコンディショニングの10%をドロップして 分類器フリーガイダンスサンプリング を改善します。
-
ハードウェア: 32 x 8 x A100 GPU
-
オプティマイザ: AdamW
-
勾配蓄積: 2
-
バッチ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000ステップで0.0001までウォームアップし、その後一定に保ちます。
評価結果
異なる分類器フリーガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と50 PLMSサンプリングステップでの評価は、チェックポイントの相対的な改善を示しています。

COCO2017検証セットからの10000のランダムなプロンプトを使用して50 PLMSステップで評価され、解像度512x512で評価されています。FIDスコアに最適化されていません。
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダ、およびコンピュートリージョンは、炭素排出量の影響を推定するために利用されました。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 150000時間
- クラウドプロバイダ: AWS
- コンピュートリージョン: US-east
- 排出された炭素(電力消費 x 時間 x 電力網の位置に基づく炭素排出量): 11250 kg CO2 eq.
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin RombachとPatrick Esserによって作成され、DALL-E Miniモデルカード に基づいています。