モデル概要
モデル特徴
モデル能力
使用事例
🚀 Stable Diffusion v1 - 5 モデルカード
Stable Diffusionは、任意のテキスト入力を元に、写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。Stable Diffusionの機能について詳しくは、🤗のStable Diffusionブログをご覧ください。
Stable - Diffusion - v1 - 5 チェックポイントは、Stable - Diffusion - v1 - 2 チェックポイントの重みで初期化され、その後、解像度512x512で595kステップ、「laion - aesthetics v2 5+」で微調整され、テキストコンディショニングを10%削除して、分類器なしガイダンスサンプリングを改善しています。
このモデルは、🧨DiffusersライブラリとRunwayML GitHubリポジトリの両方で使用できます。
🚀 クイックスタート
Diffusers
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, revision="fp16")
pipe = pipe.to(device)
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
より詳細な指示、ユースケース、およびJAXでの例については、こちらの指示に従ってください。
オリジナルのGitHubリポジトリ
- 重みをダウンロードします。
- v1 - 5 - pruned - emaonly.ckpt - 4.27GB、emaのみの重み。VRAMの使用量が少なく、推論に適しています。
- v1 - 5 - pruned.ckpt - 7.7GB、ema + 非emaの重み。VRAMの使用量が多く、微調整に適しています。
- こちらの指示に従います。
✨ 主な機能
Stable Diffusionは、任意のテキスト入力から写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
開発者 | Robin Rombach, Patrick Esser |
モデルタイプ | 拡散ベースのテキストから画像への生成モデル |
言語 | 英語 |
ライセンス | CreativeML OpenRAIL Mライセンスは、Open RAIL Mライセンスであり、BigScienceとRAIL Initiativeが共同で行っている責任あるAIライセンスの分野の作業を参考にしています。また、当社のライセンスが基づいているBLOOM Open RAILライセンスに関する記事も参照してください。 |
モデルの説明 | これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Imagen論文で提案されているように、固定された事前学習済みのテキストエンコーダー(CLIP ViT - L/14)を使用する潜在拡散モデルです。 |
詳細情報のリソース | GitHubリポジトリ、論文 |
引用 | bibtex<br> @InProceedings{Rombach_2022_CVPR,<br> author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},<br> title = {High-Resolution Image Synthesis With Latent Diffusion Models},<br> booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},<br> month = {June},<br> year = {2022},<br> pages = {10684-10695}<br> }<br> |
使用方法
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限やバイアスの調査と理解。
- アートワークの生成とデザインや他の芸術的なプロセスでの使用。
- 教育または創造的なツールでのアプリケーション。
- 生成モデルに関する研究。
除外される使用方法については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションはDALLE - MINIモデルカードから引用していますが、Stable Diffusion v1にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはいけません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現として訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。
誤用と悪意のある使用
このモデルを個人に残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツや有害なステレオタイプの意図的な宣伝または拡散。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしの性的なコンテンツ。
- 誤情報と偽情報。
- 重大な暴力や残虐な描写。
- 著作権またはライセンスのある素材をその使用条件に違反して共有すること。
- 著作権またはライセンスのある素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- このモデルは完全な写真のようなリアリズムを達成しません。
- このモデルは読めるテキストをレンダリングできません。
- このモデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や人全体が適切に生成されない場合があります。
- このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- このモデルのオートエンコーダー部分は損失があります。
- このモデルは大規模なデータセットLAION - 5Bで訓練されており、これには成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
- データセットの重複排除に追加の対策は行われていません。その結果、訓練データに重複する画像についてはある程度の記憶が見られます。訓練データはhttps://rom1504.github.io/clip - retrieval/で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、LAION - 2B(en)のサブセットで訓練されており、これは主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人と西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に低下します。
セーフティモジュール
このモデルの意図された使用方法は、Diffusersのセーフティチェッカーとともに使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と照合することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは画像生成後のCLIPTextModel
の埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は生成された画像とともにモデルに渡され、各NSFW概念の手動で設計された重みと比較されます。
トレーニング
トレーニングデータ
モデル開発者は、以下のデータセットをモデルのトレーニングに使用しました。
- LAION - 2B (en) とそのサブセット(次のセクションを参照)
トレーニング手順
Stable Diffusion v1 - 5は、オートエンコーダーとオートエンコーダーの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。トレーニング中は以下のように行われます。
- 画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状H x W x 3の画像を形状H/f x W/f x 4の潜在表現にマッピングします。
- テキストプロンプトはViT - L/14テキストエンコーダーを通じてエンコードされます。
- テキストエンコーダーの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに供給されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。
現在、6つのStable Diffusionチェックポイントが提供されており、以下のように訓練されています。
-
stable - diffusion - v1 - 1
: laion2B - enで解像度256x256
で237,000ステップ。laion - high - resolution(LAION - 5Bから解像度>= 1024x1024
の170Mの例)で解像度512x512
で194,000ステップ。 -
stable - diffusion - v1 - 2
:stable - diffusion - v1 - 1
から再開。「laion - improved - aesthetics」(laion2B - enのサブセットで、元のサイズ>= 512x512
、推定美観スコア> 5.0
、推定ウォーターマーク確率< 0.5
の画像にフィルタリングされています。ウォーターマークの推定はLAION - 5Bのメタデータから、美観スコアは改善された美観推定器を使用して推定されます)で解像度512x512
で515,000ステップ。 -
stable - diffusion - v1 - 3
:stable - diffusion - v1 - 2
から再開 - 「laion - improved - aesthetics」で解像度512x512
で195,000ステップ、テキストコンディショニングを10%削除して分類器なしガイダンスサンプリングを改善します。 -
stable - diffusion - v1 - 4
stable - diffusion - v1 - 2
から再開 - 「laion - aesthetics v2 5+」で解像度512x512
で225,000ステップ、テキストコンディショニングを10%削除して分類器なしガイダンスサンプリングを改善します。 -
stable - diffusion - v1 - 5
stable - diffusion - v1 - 2
から再開 - 「laion - aesthetics v2 5+」で解像度512x512
で595,000ステップ、テキストコンディショニングを10%削除して分類器なしガイダンスサンプリングを改善します。 -
stable - diffusion - inpainting
stable - diffusion - v1 - 5
から再開 - その後、「laion - aesthetics v2 5+」で解像度512x512で440,000ステップのインペイントトレーニング、テキストコンディショニングを10%削除。インペイントの場合、UNetには5つの追加の入力チャネル(エンコードされたマスク画像用の4つとマスク自体用の1つ)があり、その重みは非インペイントチェックポイントを復元した後にゼロ初期化されます。トレーニング中は、合成マスクを生成し、25%のマスクですべてをマスクします。 -
ハードウェア: 32 x 8 x A100 GPU
-
オプティマイザー: AdamW
-
勾配累積: 2
-
バッチ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000ステップで0.0001までウォームアップし、その後一定に保ちます。
評価結果
異なる分類器なしガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と50 PNDM/PLMSサンプリングステップでの評価は、チェックポイントの相対的な改善を示しています。
COCO2017検証セットからの10000のランダムなプロンプトを使用して50 PLMSステップで評価され、解像度512x512で評価されました。FIDスコアに最適化されていません。
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、以下のCO2排出量を推定します。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンは、炭素排出量の影響を推定するために利用されました。
属性 | 详情 |
---|---|
ハードウェアタイプ | A100 PCIe 40GB |
使用時間 | 150000時間 |
クラウドプロバイダー | AWS |
コンピュートリージョン | US - east |
排出された炭素(電力消費 x 時間 x 電力網の場所に基づく炭素排出量) | 11250 kg CO2 eq. |
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin RombachとPatrick Esserによって作成され、DALL - E Miniモデルカードに基づいています。
📄 ライセンス
このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL - Mライセンスにより、さらに権利と使用方法が明確に規定されています。
- このモデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはいけません。
- CompVisは、あなたが生成する出力に対して何らの権利も主張しません。あなたは自由にそれらを使用でき、その使用について責任を負い、ライセンスに定められた規定に違反してはいけません。
- あなたは重みを再配布し、モデルを商業的におよび/またはサービスとして使用することができます。その場合は、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL - Mのコピーをすべてのユーザーに共有することを忘れないでください(ライセンス全体を注意深く読んでください)。
完全なライセンスについては、こちらを読んでください。
以下の「リポジトリにアクセス」をクリックすることで、あなたの連絡先情報(電子メールアドレスとユーザー名)がモデルの作成者と共有されることにも同意することになります。

