モデル概要
モデル特徴
モデル能力
使用事例
🚀 Stable Diffusion Inpainting
Stable Diffusion Inpaintingは、任意のテキスト入力を元に写真のようにリアルな画像を生成することができる潜在的なテキストから画像への拡散モデルです。さらに、マスクを使用して画像をインペイントする機能も備えています。
🚀 クイックスタート
Stable Diffusion Inpaintingを使用するには、以下の方法があります。
1. 🧨Diffusersライブラリを使用する場合
from diffusers import StableDiffusionInpaintPipeline
import torch
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"runwayml/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
#image and mask_image should be PIL images.
#The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
2. RunwayML GitHubリポジトリを使用する場合
- 重み sd-v1-5-inpainting.ckpt をダウンロードします。
- こちら の手順に従います。
✨ 主な機能
- 任意のテキスト入力から写真のようにリアルな画像を生成することができます。
- マスクを使用して画像をインペイントすることができます。
📚 ドキュメント
モデルの詳細
- 開発者: Robin Rombach, Patrick Esser
- モデルの種類: 拡散ベースのテキストから画像への生成モデル
- 言語: 英語
- ライセンス: The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野での作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。
- モデルの説明: これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。
- 詳細情報のリソース: GitHub Repository, Paper。
- 引用方法:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
使用方法
直接使用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
- アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
- 教育または創造的なツールでのアプリケーション。
- 生成モデルに関する研究。
以下に除外される使用方法を説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションは DALLE-MINI model card から引用されていますが、Stable Diffusion v1にも同様に適用されます。
このモデルは、人々に敵意的または疎外感を与える環境を作り出す画像を意図的に作成または配布するために使用してはいけません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを使用して個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしで個人をなりすますこと。
- 見る人の同意なしで性的なコンテンツを生成すること。
- 誤情報と偽情報
- 重大な暴力やグロテスクな表現
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること。
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- モデルは完全な写真のようなリアリズムを達成できません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球体の上に赤い立方体」のような構成性を必要とする難しいタスクではうまく機能しません。
- 顔や人物全体が適切に生成されない場合があります。
- モデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- モデルの自動符号化部分は損失があります。
- モデルは大規模なデータセット LAION-5B で訓練されており、成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
- データセットの重複排除には追加の対策が取られていません。その結果、訓練データに重複する画像についてはある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は LAION-2B(en) のサブセットで訓練されており、主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がデフォルトとして設定されることが多いため、モデルの全体的な出力に影響を与えます。さらに、モデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。
訓練
訓練データ
モデル開発者は、以下のデータセットをモデルの訓練に使用しました。
- LAION-2B (en) とそのサブセット (次のセクションを参照)
訓練手順
Stable Diffusion v1は、オートエンコーダと拡散モデルを組み合わせた潜在的な拡散モデルであり、オートエンコーダの潜在空間で訓練されます。訓練中は、以下の手順が行われます。
- 画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状が H x W x 3 の画像を形状が H/f x W/f x 4 の潜在表現にマッピングします。
- テキストプロンプトは ViT-L/14 テキストエンコーダを通じてエンコードされます。
- テキストエンコーダの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに供給されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。
現在、以下の6つのチェックポイントが提供されています。
-
sd-v1-1.ckpt
: laion2B-en で解像度256x256
で237kステップ、laion-high-resolution (LAION-5Bから解像度>= 1024x1024
の170Mの例) で解像度512x512
で194kステップ訓練されました。 -
sd-v1-2.ckpt
:sd-v1-1.ckpt
から再開。"laion-improved-aesthetics" (laion2B-enのサブセットで、元のサイズ>= 512x512
、推定美観スコア> 5.0
、推定ウォーターマーク確率< 0.5
の画像にフィルタリングされたもの。ウォーターマークの推定はLAION-5Bのメタデータから、美観スコアは improved aesthetics estimator を使用して推定されます) で解像度512x512
で515kステップ訓練されました。 -
sd-v1-3.ckpt
:sd-v1-2.ckpt
から再開。"laion-improved-aesthetics" で解像度512x512
で195kステップ、テキスト条件付けを10%ドロップして classifier-free guidance sampling を改善しました。 -
sd-v1-4.ckpt
: stable-diffusion-v1-2から再開。"laion-aesthetics v2 5+" で解像度512x512で225,000ステップ、テキスト条件付けを10%ドロップして classifier-free guidance sampling を行いました。 -
sd-v1-5.ckpt
:sd-v1-2.ckpt
から再開。"laion-aesthetics v2 5+" で解像度512x512で595kステップ、テキスト条件付けを10%ドロップして分類器フリーガイダンスサンプリングを改善しました。 -
sd-v1-5-inpaint.ckpt
:sd-v1-2.ckpt
から再開。"laion-aesthetics v2 5+" で解像度512x512で595kステップ、テキスト条件付けを10%ドロップして分類器フリーガイダンスサンプリングを改善しました。その後、"laion-aesthetics v2 5+" で解像度512x512で440kステップのインペイント訓練を行い、テキスト条件付けを10%ドロップしました。インペイントのために、UNetには5つの追加の入力チャネル (エンコードされたマスク画像用の4つとマスク自体用の1つ) があり、その重みは非インペイントチェックポイントを復元した後にゼロ初期化されました。訓練中には、合成マスクを生成し、25%の確率ですべてをマスクします。 -
ハードウェア: 32 x 8 x A100 GPUs
-
オプティマイザ: AdamW
-
勾配蓄積: 2
-
バッチサイズ: 32 x 8 x 2 x 4 = 2048
-
学習率: 10,000ステップで0.0001までウォームアップし、その後一定に保ちます。
評価結果
異なる分類器フリーガイダンススケール (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) と50 PLMSサンプリングステップでの評価は、チェックポイントの相対的な改善を示しています。
COCO2017検証セットからの10000個のランダムなプロンプトを使用して、50 PLMSステップで評価され、解像度512x512で評価されました。FIDスコアは最適化されていません。
インペイント評価
インペイントモデルのパフォーマンスを評価するために、LDM paper と同じ評価プロトコルを使用しました。Stable Diffusion Inpainting Modelはテキスト入力を受け付けるため、固定プロンプト photograph of a beautiful empty scene, highest quality settings
を使用しました。
モデル | FID | LPIPS |
---|---|---|
Stable Diffusion Inpainting | 1.00 | 0.141 (+- 0.082) |
Latent Diffusion Inpainting | 1.50 | 0.137 (+- 0.080) |
CoModGAN | 1.82 | 0.15 |
LaMa | 2.21 | 0.134 (+- 0.080) |
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定します。ハードウェア、実行時間、クラウドプロバイダ、およびコンピュートリージョンを使用して、炭素排出量を推定しました。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 150000時間
📄 ライセンス
このモデルは CreativeML OpenRAIL-M ライセンスの下で提供されています。
⚠️ 重要提示
このモデルを取得する前にもう1つのステップがあります。このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、さらに権利と使用方法が指定されています。CreativeML OpenRAILライセンスは以下を指定しています。
- モデルを使用して、意図的に違法または有害な出力やコンテンツを生成したり共有したりしてはいけません。
- CompVisは、あなたが生成した出力に対して何らかの権利を主張しません。あなたは自由にそれらを使用できますが、その使用については責任を負い、ライセンスに定められた規定に違反してはいけません。
- あなたは重みを再配布し、モデルを商業的に使用したりサービスとして提供したりすることができます。その場合、ライセンスに記載されているのと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があります (ライセンス全体を注意深く読んでください)。 完全なライセンスはこちらで読むことができます: https://huggingface.co/spaces/CompVis/stable-diffusion-license
以下の「リポジトリにアクセスする」をクリックすることで、あなたの連絡先情報 (メールアドレスとユーザー名) がモデルの作成者と共有されることに同意するものとみなされます。

