モデル概要
モデル特徴
モデル能力
使用事例
🚀 Stable Diffusion v1-2 モデルカード
Stable Diffusionは、任意のテキスト入力を元に、写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。Stable Diffusionの機能について詳しくは、🤗のStable Diffusion with D🧨iffusersブログをご覧ください。
Stable-Diffusion-v1-2のチェックポイントは、Stable-Diffusion-v1-1のチェックポイントの重みで初期化され、その後、解像度512x512
で515,000ステップ、"laion-improved-aesthetics"(laion2B-enのサブセットで、元のサイズが>= 512x512
、推定美学スコアが> 5.0
、推定透かし確率が< 0.5
の画像にフィルタリングされたもの)で微調整されました。詳細については、トレーニングを参照してください。
ここの重みは、D🧨iffusersライブラリで使用することを想定しています。CompVis Stable Diffusionのコードベースに読み込む重みを探している場合は、こちらをご覧ください。
✨ 主な機能
Stable Diffusionは、テキストプロンプトに基づいて画像を生成および変更することができます。また、固定された事前学習済みのテキストエンコーダを使用する潜在拡散モデルです。
📦 インストール
このモデルを使用するには、🤗のDiffusersライブラリをインストールすることをおすすめします。
pip install --upgrade diffusers transformers scipy
💻 使用例
基本的な使用法
デフォルトのPNDMスケジューラでパイプラインを実行するには、以下のコードを使用します。
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline
model_id = "CompVis/stable-diffusion-v1-2"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id)
pipe = pipe.to(device)
prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt)["sample"][0]
image.save("astronaut_rides_horse.png")
高度な使用法
GPUメモリが制限されており、利用可能なGPU RAMが10GB未満の場合は、上記のようにデフォルトのfloat32精度ではなく、float16精度でStableDiffusionPipelineをロードすることを確認してください。これは、diffusersに重みがfloat16精度であることを期待するように指示することで行うことができます。
import torch
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("astronaut_rides_horse.png")
ノイズスケジューラを交換するには、from_pretrained
に渡します。
from diffusers import StableDiffusionPipeline, LMSDiscreteScheduler
model_id = "CompVis/stable-diffusion-v1-2"
# ここではK-LMSスケジューラを使用します
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("astronaut_rides_horse.png")
📚 ドキュメント
直接利用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには、以下のようなものがあります。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限やバイアスの調査と理解。
- アートワークの生成とデザインやその他のアートプロセスでの使用。
- 教育用または創造的なツールでの応用。
- 生成モデルに関する研究。
除外される使用法については、以下を参照してください。
誤用、悪意のある使用、および想定外の使用
このモデルは、人々に敵対的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現として訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下のようなものが含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現を生成すること。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしに個人をなりすますこと。
- 見る人の同意なしの性的なコンテンツ。
- 誤情報と偽情報。
- 重大な暴力やグロテスクな描写。
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること。
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- このモデルは完全な写真のようなリアリズムを達成しません。
- このモデルは読めるテキストをレンダリングできません。
- このモデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や一般的な人物は適切に生成されない場合があります。
- このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- このモデルのオートエンコーダ部分は損失があります。
- このモデルは大規模なデータセットLAION-5Bで訓練されており、これには成人向けのコンテンツが含まれており、追加の安全メカニズムと考慮なしに製品で使用するには適していません。
- データセットの重複排除には追加の対策が取られていません。その結果、訓練データに重複する画像については、ある程度の記憶が見られます。訓練データは、https://rom1504.github.io/clip-retrieval/で検索することができ、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、主に英語の説明に限定された画像から構成されるLAION-2B(en)のサブセットで訓練されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、モデルの全体的な出力に影響を与え、白人や西洋文化がしばしばデフォルトとして設定されます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に劣ります。
トレーニング
トレーニングデータ
モデル開発者は、以下のデータセットをモデルのトレーニングに使用しました。
- LAION-2B (en) およびそのサブセット(次のセクションを参照)
トレーニング手順
Stable Diffusion v1-4は、オートエンコーダと、オートエンコーダの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。トレーニング中は、以下のような手順が行われます。
- 画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状がH x W x 3の画像を形状がH/f x W/f x 4の潜在表現にマッピングします。
- テキストプロンプトはViT-L/14テキストエンコーダを通じてエンコードされます。
- テキストエンコーダの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに供給されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測の間の再構成目的です。
現在、以下のように訓練された4つのチェックポイントを提供しています。
stable-diffusion-v1-1
: laion2B-enで解像度256x256
で237,000ステップ。laion-high-resolution(LAION-5Bから解像度>= 1024x1024
の170Mの例)で解像度512x512
で194,000ステップ。stable-diffusion-v1-2
:stable-diffusion-v1-1
から再開。"laion-improved-aesthetics"(laion2B-enのサブセットで、元のサイズが>= 512x512
、推定美学スコアが> 5.0
、推定透かし確率が< 0.5
の画像にフィルタリングされたもの)で解像度512x512
で515,000ステップ。透かしの推定はLAION-5Bのメタデータから行われ、美学スコアは改良された美学推定器を使用して推定されます。stable-diffusion-v1-3
:stable-diffusion-v1-2
から再開。"laion-improved-aesthetics"で解像度512x512
で195,000ステップ、および分類器なしガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップ。stable-diffusion-v1-4
stable-diffusion-v1-2
から再開。"laion-aesthetics v2 5+"で解像度512x512
で225,000ステップ、および分類器なしガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップ。
トレーニング詳細
- ハードウェア: 32 x 8 x A100 GPU
- オプティマイザ: AdamW
- 勾配累積: 2
- バッチ: 32 x 8 x 2 x 4 = 2048
- 学習率: 10,000ステップで0.0001までウォームアップし、その後一定に維持
評価結果
異なる分類器なしガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)および50 PLMSサンプリングステップでの評価は、チェックポイントの相対的な改善を示しています。
50 PLMSステップとCOCO2017検証セットからの10000のランダムなプロンプトを使用して評価され、512x512解像度で評価されました。FIDスコアに最適化されていません。
環境への影響
Stable Diffusion v1 推定排出量 この情報に基づいて、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、以下のCO2排出量を推定しています。ハードウェア、ランタイム、クラウドプロバイダ、およびコンピュートリージョンは、炭素影響を推定するために利用されました。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 150000時間
- クラウドプロバイダ: AWS
- コンピュートリージョン: US-east
- 排出された炭素(電力消費 x 時間 x 電力網の位置に基づく炭素生成): 11250 kg CO2 eq.
📄 ライセンス
このモデルは、すべての人に公開されており、CreativeML OpenRAIL-Mライセンスによってさらに権利と使用法が指定されています。CreativeML OpenRAILライセンスは、以下のことを指定しています。
- モデルを使用して、意図的に違法または有害な出力やコンテンツを生成または共有することはできません。
- 作成者は、生成した出力に対して何らの権利も主張せず、自由に使用することができ、その使用について責任を負います。ただし、その使用はライセンスに定められた規定に反してはなりません。
- 重みを再配布し、モデルを商用および/またはサービスとして使用することができます。その場合は、ライセンスと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有することに注意してください(ライセンス全体を注意深く読んでください)。
完全なライセンスについては、こちらをご覧ください。
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin RombachとPatrick Esserによって作成され、DALL-E Miniモデルカードをベースにしています。

