モデル概要
モデル特徴
モデル能力
使用事例
🚀 再アップロード
このリポジトリは、当初アップロードされた際の The CreativeML OpenRAIL - M License、具体的には Section II の許諾に基づき、HuggingFace に再アップロードされています。このセクションでは以下のような許諾が与えられています。
...補完資料、モデル、およびモデルの派生物を複製、作成、公開表示、公開実行、サブライセンス、および配布するための永続的、世界規模、非排他的、無料、ロイヤリティフリー、取消不能の著作権ライセンス。
なお、これらのファイルは HuggingFace からではなく、[modelscope](https://www.modelscope.cn/models/AI - ModelScope/stable - diffusion - inpainting/files) から取得されたものです。そのため、元のリポジトリに存在していた一部のファイルが存在しない場合があります。ファイルの整合性はチェックサムにより検証されています。
🚀 クイックスタート
このモデルを取得する前にもう1つの手続きがあります。このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL - M ライセンスにより、さらに権利と使用方法が明確にされています。
CreativeML OpenRAIL ライセンスでは以下のことが規定されています。
- モデルを使用して、意図的に違法または有害な出力やコンテンツを作成したり共有したりすることはできません。
- CompVis は、ユーザーが生成した出力に対して一切の権利を主張せず、ユーザーはそれらを自由に使用できますが、ライセンスに定められた規定に違反しないように使用する責任があります。
- ユーザーは、重みを再配布し、モデルを商用および/またはサービスとして使用することができます。その際、ライセンスに記載されている同じ使用制限を含め、CreativeML OpenRAIL - M のコピーをすべてのユーザーに共有する必要があります(ライセンスを完全かつ注意深く読んでください)。
完全なライセンスはこちらをご覧ください: https://huggingface.co/spaces/CompVis/stable - diffusion - license
以下の「リポジトリにアクセス」をクリックすることで、あなたの連絡先情報(メールアドレスとユーザー名)がモデルの作成者と共有されることに同意したことになります。
✨ 主な機能
Stable Diffusion Inpainting は、潜在的なテキストから画像への拡散モデルであり、任意のテキスト入力を元に写真のようにリアルな画像を生成することができます。さらに、マスクを使用して画像の補完も可能です。
📦 インストール
このモデルは、🧨Diffusers ライブラリ を使用して利用できます。
💻 使用例
基本的な使用法
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"benjamin - paine/stable - diffusion - v1 - 5 - inpainting",
variant="fp16",
torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
#image and mask_image should be PIL images.
#The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
高度な使用法
このモデルの使用に関する具体的な高度なシナリオは、元のドキュメントに記載されていません。
動作の仕方
image |
mask_image |
---|---|
![]() |
![]() |
prompt |
Output |
---|---|
Face of a yellow cat, high resolution, sitting on a park bench | ![]() |
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
開発者 | Robin Rombach, Patrick Esser |
モデルタイプ | 拡散ベースのテキストから画像への生成モデル |
言語 | 英語 |
ライセンス | [The CreativeML OpenRAIL M license](https://huggingface.co/spaces/CompVis/stable - diffusion - license) は、[Open RAIL M license](https://www.licenses.ai/blog/2022/8/18/naming - convention - of - responsible - ai - licenses) であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている [the article about the BLOOM Open RAIL license](https://bigscience.huggingface.co/blog/the - bigscience - rail - license) も参照してください。 |
モデルの説明 | これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダー (CLIP ViT - L/14) を使用する Latent Diffusion Model です。 |
詳細情報のリソース | 論文 |
引用形式 | @InProceedings{Rombach_2022_CVPR, |
用途
直接的な使用
このモデルは研究目的のみを意図しています。可能な研究分野とタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限とバイアスの調査と理解。
- アートワークの生成とデザインやその他のアートプロセスでの使用。
- 教育または創造的なツールへの応用。
- 生成モデルに関する研究。
除外される使用法については以下で説明します。
誤用、悪意のある使用、および範囲外の使用
注: このセクションは [DALLE - MINI モデルカード](https://huggingface.co/dalle - mini/dalle - mini) から引用されていますが、Stable Diffusion v1 にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または配布するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
範囲外の使用
このモデルは、人やイベントの事実的または真実の表現として訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツや有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしでの個人のなりすまし。
- 見る可能性のある人々の同意なしでの性的なコンテンツ。
- 誤情報と偽情報
- 重大な暴力やゴアの表現
- 著作権またはライセンスされた素材の使用条件に違反した共有。
- 著作権またはライセンスされた素材の改変コンテンツの使用条件に違反した共有。
制限とバイアス
制限
- モデルは完全な写真的リアリズムを達成しません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や一般的な人物が適切に生成されない場合があります。
- モデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- モデルのオートエンコーディング部分は損失があります。
- モデルは大規模なデータセット [LAION - 5B](https://laion.ai/blog/laion - 5b/) で訓練されており、成人向けの素材が含まれており、追加の安全メカニズムと考慮なしに製品で使用するには適していません。
- データセットの重複排除には追加の対策が取られていません。その結果、訓練データに重複する画像については、ある程度の記憶が見られます。訓練データは [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1 は [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) のサブセットで訓練されており、主に英語の説明が付いた画像から構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人と西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、英語以外のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に低下します。
訓練
訓練データ
モデル開発者は、以下のデータセットをモデルの訓練に使用しました。
- LAION - 2B (en) およびそのサブセット(次のセクションを参照)
訓練手順
Stable Diffusion v1 は、オートエンコーダーと拡散モデルを組み合わせた潜在拡散モデルであり、拡散モデルはオートエンコーダーの潜在空間で訓練されます。訓練中は以下のように動作します。
- 画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数 8 を使用し、形状 H x W x 3 の画像を形状 H/f x W/f x 4 の潜在表現にマッピングします。
- テキストプロンプトは ViT - L/14 テキストエンコーダーを通じてエンコードされます。
- テキストエンコーダーの非プール出力は、クロスアテンションを介して潜在拡散モデルの UNet バックボーンに入力されます。
- 損失は、潜在表現に追加されたノイズと UNet による予測との間の再構成目的です。
現在、6つのチェックポイント sd - v1 - 1.ckpt
、sd - v1 - 2.ckpt
、sd - v1 - 3.ckpt
、sd - v1 - 4.ckpt
、sd - v1 - 5.ckpt
、および sd - v1 - 5 - inpainting.ckpt
が提供されており、以下のように訓練されています。
-
sd - v1 - 1.ckpt
: [laion2B - en](https://huggingface.co/datasets/laion/laion2B - en) で解像度256x256
で 237k ステップ、[laion - high - resolution](https://huggingface.co/datasets/laion/laion - high - resolution)(LAION - 5B から解像度>= 1024x1024
の 170M の例)で解像度512x512
で 194k ステップ。 -
sd - v1 - 2.ckpt
:sd - v1 - 1.ckpt
から再開。「laion - improved - aesthetics」(laion2B - en のサブセットで、元のサイズ>= 512x512
、推定美学スコア> 5.0
、推定ウォーターマーク確率< 0.5
の画像にフィルタリングされたもの)で解像度512x512
で 515k ステップ。ウォーターマークの推定は LAION - 5B のメタデータから、美学スコアは [improved aesthetics estimator](https://github.com/christophschuhmann/improved - aesthetic - predictor) を使用して推定されています。 -
sd - v1 - 3.ckpt
:sd - v1 - 2.ckpt
から再開。「laion - improved - aesthetics」で解像度512x512
で 195k ステップ、テキスト条件の 10% をドロップして classifier - free guidance sampling を改善しました。 -
sd - v1 - 4.ckpt
: stable - diffusion - v1 - 2 から再開。解像度 512x512 で「laion - aesthetics v2 5+」で 225,000 ステップ、テキスト条件の 10% をドロップして classifier - free guidance sampling を行いました。 -
sd - v1 - 5.ckpt
:sd - v1 - 2.ckpt
から再開。解像度 512x512 で「laion - aesthetics v2 5+」で 595k ステップ、テキスト条件の 10% をドロップして classifier - free guidance sampling を改善しました。 -
sd - v1 - 5 - inpaint.ckpt
:sd - v1 - 2.ckpt
から再開。解像度 512x512 で「laion - aesthetics v2 5+」で 595k ステップ、テキスト条件の 10% をドロップして classifier - free guidance sampling を改善しました。その後、解像度 512x512 で「laion - aesthetics v2 5+」で 440k ステップの補完訓練を行い、テキスト条件の 10% をドロップしました。補完のために、UNet は 5 つの追加の入力チャネル(エンコードされたマスク画像用の 4 つとマスク自体用の 1 つ)を持ち、非補完チェックポイントを復元した後、その重みはゼロに初期化されます。訓練中には、合成マスクを生成し、25% の確率ですべてをマスクします。 -
ハードウェア: 32 x 8 x A100 GPU
-
オプティマイザー: AdamW
-
勾配蓄積: 2
-
バッチ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000 ステップで 0.0001 にウォームアップし、その後一定に保ちます。
評価結果
異なる classifier - free ガイダンススケール(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)と 50 PLMS サンプリングステップでの評価により、チェックポイントの相対的な改善が示されています。

COCO2017 検証セットからの 10000 個のランダムなプロンプトを使用して 50 PLMS ステップで評価され、解像度 512x512 で評価されています。FID スコアには最適化されていません。
補完評価
補完モデルの性能を評価するために、LDM paper と同じ評価プロトコルを使用しました。Stable Diffusion Inpainting モデルはテキスト入力を受け付けるため、固定プロンプト photograph of a beautiful empty scene, highest quality settings
を使用しました。
モデル | FID | LPIPS |
---|---|---|
Stable Diffusion Inpainting | 1.00 | 0.141 (+ - 0.082) |
Latent Diffusion Inpainting | 1.50 | 0.137 (+ - 0.080) |
CoModGAN | 1.82 | 0.15 |
LaMa | 2.21 | 0.134 (+ - 0.080) |
環境への影響
Stable Diffusion v1 の推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下の CO2 排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンを利用して、炭素排出量の影響を推定しています。
- ハードウェアタイプ: A100 PCIe 40GB
📄 ライセンス
このモデルは [The CreativeML OpenRAIL M license](https://huggingface.co/spaces/CompVis/stable - diffusion - license) の下で提供されています。

