stable-diffusion-v1-5-inpaintingオープンソースモデル - テキストから画像を生成し、マスクで画像を修復することも可能

Stable Diffusion V1 5 Inpainting

botpによって開発

潜在拡散アーキテクチャに基づくテキスト生成画像モデルで、マスクによる画像修復機能を強化

画像生成オープンソースライセンス:Openrail #画像修復 #テキストガイド生成 #マスク編集

ダウンロード数 6,191

リリース時間 : 5/5/2023

モデル概要

このモデルはテキスト入力に基づいてリアルな画像を生成できるだけでなく、マスクを使用して画像をインテリジェントに修復できます。Stable-Diffusion-v-1-2の重みで初期化され、マスク情報を処理するための5つの追加入力チャネルを備えています。

モデル特徴

二重機能

テキスト生成画像とマスクベースの画像修復を同時にサポート

強化トレーニング

LAIONデータセットで44万ステップの修復特化トレーニングを追加、10%のテキスト条件ドロップアウトで最適化

マスク処理最適化

UNetに5つの専用入力チャネルを追加、25%のトレーニングサンプルでフルマスクを使用して堅牢性を強化

モデル能力

テキストガイド画像生成

画像修復と編集

高解像度画像合成

アート創作支援

使用事例

クリエイティブデザイン

コンセプトアート生成

テキスト記述に基づいて迅速にデザインコンセプト図を生成

512x512解像度画像、複数回の反復最適化をサポート

画像編集

インテリジェント写真修正

マスクを使用して写真の欠陥を自動修復または不要な要素を削除

FID 1.00、LPIPS 0.141（LaMaなどの専門修復モデルを上回る）

🚀 Stable Diffusion Inpainting

Stable Diffusion Inpaintingは、任意のテキスト入力を元に写真のようにリアルな画像を生成することができる潜在的なテキストから画像への拡散モデルです。さらに、マスクを使用して画像のインペインティングを行う機能も備えています。

🚀 クイックスタート

Stable Diffusion Inpaintingは、テキスト入力に基づいて写真のようなリアルな画像を生成し、マスクを使って画像のインペインティングができます。以下に、このモデルの使用方法を示します。

🧨 Diffusersライブラリを使用する場合

from diffusers import StableDiffusionInpaintPipeline
import torch

pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
# imageとmask_imageはPIL画像である必要があります。
# マスクの構造は、インペインティングする部分が白、そのままにする部分が黒です。
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")

オリジナルのGitHubリポジトリを使用する場合

重み sd-v1-5-inpainting.ckpt をダウンロードします。
こちらの指示に従います。

✨ 主な機能

任意のテキスト入力に基づいて写真のようにリアルな画像を生成することができます。
マスクを使用して画像のインペインティングを行うことができます。

📚 ドキュメント

モデルの詳細

開発者: Robin Rombach, Patrick Esser
モデルの種類: 拡散ベースのテキストから画像への生成モデル
言語: 英語
ライセンス: The CreativeML OpenRAIL M license は Open RAIL M license であり、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野での作業を元にしています。詳細は the article about the BLOOM Open RAIL license を参照してください。
モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。
詳細情報のリソース: GitHub Repository, Paper。
引用方法:

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

使用方法

直接使用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクは以下の通りです。

有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限とバイアスの調査と理解。
アートワークの生成とデザインやその他のアートプロセスでの使用。
教育または創造的なツールでの応用。
生成モデルに関する研究。

以下に除外される使用方法を説明します。

誤用、悪意のある使用、および想定外の使用

このモデルは、人々に敵意や疎外感を抱かせる画像を意図的に作成または拡散するために使用してはいけません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

想定外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成することはこのモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを使って個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下のようなものが含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人道的、またはその他の有害な表現の生成。
差別的なコンテンツや有害なステレオタイプの意図的な宣伝または拡散。
本人の同意なしでの個人のなりすまし。
見る人の同意なしでの性的なコンテンツ。
誤情報と偽情報。
重大な暴力やグロテスクな表現。
著作権またはライセンスされた素材をその使用条件に違反して共有すること。
著作権またはライセンスされた素材の改変コンテンツをその使用条件に違反して共有すること。

制限とバイアス

制限

モデルは完全な写真のようなリアリズムを達成できません。
モデルは読めるテキストをレンダリングできません。
モデルは「青い球の上に赤い立方体」のような構成を必要とする難しいタスクではうまく機能しません。
顔や人物全体が適切に生成されないことがあります。
モデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
モデルのオートエンコーダ部分は損失があります。
モデルは大規模なデータセット LAION-5B で訓練されており、成人向けの素材が含まれています。追加の安全メカニズムと考慮なしでは製品での使用に適していません。
データセットの重複排除に追加の対策は行われていません。その結果、訓練データに重複する画像についてある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は LAION-2B(en) のサブセットで訓練されており、主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストと画像は十分に考慮されていない可能性があります。これはモデルの全体的な出力に影響を与え、白人や西洋文化がデフォルトとして設定されることが多いです。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に劣ります。

訓練

訓練データ

モデル開発者は、以下のデータセットをモデルの訓練に使用しました。

LAION-2B (en) とそのサブセット (次のセクションを参照)

訓練手順

Stable Diffusion v1は、オートエンコーダと拡散モデルを組み合わせた潜在的な拡散モデルであり、オートエンコーダの潜在空間で訓練されます。訓練中は以下のようになります。

画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状が H x W x 3 の画像を形状が H/f x W/f x 4 の潜在表現にマッピングします。
テキストプロンプトは ViT-L/14 テキストエンコーダを通じてエンコードされます。
テキストエンコーダの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。

現在、6つのチェックポイント sd-v1-1.ckpt, sd-v1-2.ckpt, sd-v1-3.ckpt, sd-v1-4.ckpt, sd-v1-5.ckpt, sd-v1-5-inpainting.ckpt を提供しており、以下のように訓練されています。

sd-v1-1.ckpt: laion2B-en で解像度 256x256 で237kステップの訓練を行い、laion-high-resolution (LAION-5Bから解像度 >= 1024x1024 の170Mの例) で解像度 512x512 で194kステップの訓練を行いました。
sd-v1-2.ckpt: sd-v1-1.ckpt から再開。"laion-improved-aesthetics" (laion2B-enのサブセットで、元のサイズ >= 512x512、推定美学スコア > 5.0、推定ウォーターマーク確率 < 0.5 の画像にフィルタリングされています。ウォーターマークの推定はLAION-5Bのメタデータから、美学スコアは improved aesthetics estimator を使用して推定されています) で解像度 512x512 で515kステップの訓練を行いました。
sd-v1-3.ckpt: sd-v1-2.ckpt から再開。"laion-improved-aesthetics" で解像度 512x512 で195kステップの訓練を行い、classifier-free guidance sampling を改善するためにテキスト条件付けを10%ドロップしました。
sd-v1-4.ckpt: stable-diffusion-v1-2から再開。"laion-aesthetics v2 5+" で解像度512x512で225,000ステップの訓練を行い、classifier-free guidance sampling のためにテキスト条件付けを10%ドロップしました。
sd-v1-5.ckpt: sd-v1-2.ckpt から再開。"laion-aesthetics v2 5+" で解像度512x512で595kステップの訓練を行い、分類器フリーのガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップしました。
sd-v1-5-inpaint.ckpt: sd-v1-2.ckpt から再開。"laion-aesthetics v2 5+" で解像度512x512で595kステップの訓練を行い、分類器フリーのガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップしました。その後、"laion-aesthetics v2 5+" で解像度512x512で440kステップのインペインティング訓練を行い、テキスト条件付けを10%ドロップしました。インペインティングのために、UNetには5つの追加の入力チャネル (エンコードされたマスク画像用の4つとマスク自体用の1つ) があり、その重みは非インペインティングのチェックポイントを復元した後にゼロ初期化されました。訓練中には合成マスクを生成し、25%の確率ですべてをマスクします。
ハードウェア: 32 x 8 x A100 GPUs
オプティマイザ: AdamW
勾配蓄積: 2
バッチサイズ: 32 x 8 x 2 x 4 = 2048
学習率: 10,000ステップで0.0001にウォームアップし、その後一定に保ちます。

評価結果

異なる分類器フリーガイダンススケール (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) と50 PLMSサンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

pareto

COCO2017検証セットからの10000個のランダムなプロンプトを使用して50 PLMSステップで評価し、解像度512x512で評価しました。FIDスコアを最適化していません。

インペインティング評価

インペインティングモデルの性能を評価するために、LDM paper と同じ評価プロトコルを使用しました。Stable Diffusion Inpaintingモデルはテキスト入力を受け付けるため、固定プロンプト photograph of a beautiful empty scene, highest quality settings を使用しました。

モデル	FID	LPIPS
Stable Diffusion Inpainting	1.00	0.141 (+- 0.082)
Latent Diffusion Inpainting	1.50	0.137 (+- 0.080)
CoModGAN	1.82	0.15
LaMa	2.21	0.134 (+- 0.080)

環境への影響

Stable Diffusion v1 推定排出量 この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定します。ハードウェア、実行時間、クラウドプロバイダ、およびコンピュートリージョンを利用して炭素排出量を推定しました。

📄 ライセンス

このモデルは The CreativeML OpenRAIL M license の下で公開されています。このライセンスは Open RAIL M license であり、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野での作業を元にしています。詳細は the article about the BLOOM Open RAIL license を参照してください。