Stable Diffusion 2オープンソース画像生成システム - 無料で高解像度のテキストからの画像生成を実現

Stable Diffusion 2

stabilityaiによって開発

拡散モデルベースのテキストから画像生成システムで、高解像度画像生成をサポート

画像生成 #高解像度テキストから画像生成 #OpenCLIPテキストエンコーディング #潜在拡散アーキテクチャ

ダウンロード数 261.26k

リリース時間 : 11/23/2022

モデル概要

Stable Diffusion v2は、テキストプロンプトに基づいて画像を作成・編集できる先進的なテキストから画像生成モデルです。潜在拡散モデルアーキテクチャを採用し、固定された事前学習済みOpenCLIP-ViT/Hテキストエンコーダーを使用しています。

モデル特徴

高解像度生成

768x768解像度の画像生成をサポートし、前世代モデルと比べて大幅な向上を実現

v目的関数

改良されたv目的関数でトレーニングされ、生成品質が向上

マルチ解像度サポート

512x512と768x768の2種類の解像度モデルを提供

安全フィルタリング

トレーニングデータはNSFW検出器でフィルタリング済み(p_unsafe=0.1閾値)

モデル能力

テキストから画像生成

画像編集

高解像度画像生成

アート創作

使用事例

アート創作

コンセプトアート生成

テキスト記述に基づいてアートコンセプトを生成

様々なスタイルのアート作品を生成可能

デザイン支援

デザイナーにクリエイティブなインスピレーションを提供

デザインコンセプトを迅速に可視化

研究応用

生成モデル研究

生成モデルの限界とバイアスを研究

安全展開研究

有害なコンテンツを生成する可能性のあるモデルを安全に展開する方法を研究

🚀 Stable Diffusion v2 モデルカード

このモデルカードは、こちらで利用可能なStable Diffusion v2モデルに関するものです。このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用でき、画像生成技術の分野で大きな可能性を秘めています。

🚀 クイックスタート

このstable-diffusion-2モデルは、stable-diffusion-2-base (512-base-ema.ckpt) から再開され、同じデータセットで v-objective を使用して150kステップトレーニングされました。その後、768x768の画像でさらに140kステップトレーニングされました。
stablediffusion リポジトリで使用する場合：こちらから768-v-ema.ckptをダウンロードしてください。
🧨 diffusers で使用することもできます。

✨ 主な機能

テキストプロンプトに基づいて画像を生成および変更することができます。
複数のチェックポイントが用意されており、様々なタスクに対応できます。

📦 インストール

必要なライブラリのインストール

pip install diffusers transformers accelerate scipy safetensors

💻 使用例

基本的な使用法

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "stabilityai/stable-diffusion-2"

# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

高度な使用法

# メモリ効率の良いアテンションを使用するためにxformersをインストールすることをおすすめします
pip install xformers

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2"

# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# 低GPU RAMの場合、VRAM使用量を減らすためにアテンションスライシングを有効にする
pipe.enable_attention_slicing()

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

📚 ドキュメント

モデルの詳細

属性	詳情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する Latent Diffusion Model です。
詳細情報のリソース	GitHubリポジトリ
引用	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

使用方法

直接使用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下のようなものがあります。

有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限やバイアスの調査と理解。
アートワークの生成やデザインなどの芸術的なプロセスでの使用。
教育や創造的なツールでの応用。
生成モデルに関する研究。

除外される使用方法については以下で説明します。

誤用、悪意のある使用、および範囲外の使用

このモデルは、人々に敵対的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

範囲外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを、個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下のようなものが含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人道的、またはその他有害な表現の生成。
差別的なコンテンツや有害なステレオタイプの意図的な宣伝または拡散。
本人の同意なしでの個人のなりすまし。
見る人の同意なしでの性的なコンテンツ。
誤情報とディスインフォメーション。
重大な暴力やグロテスクな表現。
著作権またはライセンスのある素材をその使用条件に違反して共有すること。
著作権またはライセンスのある素材をその使用条件に違反して改変したコンテンツを共有すること。

制限とバイアス

制限

完全な写真的なリアリズムを達成することはできません。
読み取り可能なテキストをレンダリングすることはできません。
「青い球体の上に赤色の立方体がある」のような構成性を必要とする難しいタスクではうまく機能しません。
顔や人物全体が適切に生成されない場合があります。
主に英語のキャプションで訓練されているため、他の言語ではうまく機能しません。
モデルのオートエンコーダー部分は損失があります。
モデルは大規模データセット LAION-5B のサブセットで訓練されており、これには成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAIONのNFSW検出器を使用してデータセットをフィルタリングしています（トレーニングセクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusionは主に LAION-2B(en) のサブセットで訓練されており、これは英語の説明に限定された画像から構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に劣ります。Stable Diffusion v2は、入力やその意図に関係なく、バイアスを反映し、悪化させる程度が高いため、閲覧者の裁量が必要です。

トレーニング

トレーニングデータ

モデル開発者は、以下のデータセットをモデルのトレーニングに使用しました。

LAION-5Bとそのサブセット（詳細は以下）。トレーニングデータは、LAIONのNSFW検出器を使用してさらにフィルタリングされており、「p_unsafe」スコアが0.1（保守的）です。詳細については、LAION-5Bの NeurIPS 2022 の論文とそのトピックに関するレビューアーの議論を参照してください。

トレーニング手順

Stable Diffusion v2は、オートエンコーダーと拡散モデルを組み合わせた潜在拡散モデルであり、拡散モデルはオートエンコーダーの潜在空間で訓練されます。トレーニング中は以下のような手順が行われます。

画像はエンコーダーによってエンコードされ、潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状がH x W x 3の画像を形状がH/f x W/f x 4の潜在表現にマッピングします。
テキストプロンプトは、OpenCLIP-ViT/Hテキストエンコーダーによってエンコードされます。
テキストエンコーダーの出力は、交差アテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
損失は、潜在表現に追加されたノイズとUNetによる予測の間の再構成目的です。また、いわゆる v-objective も使用しています（https://arxiv.org/abs/2202.00512 を参照）。

現在、以下のチェックポイントを提供しています。

512-base-ema.ckpt：LAION-5B のサブセットで、明示的なポルノグラフィック素材をフィルタリングしたものを使用して、解像度 256x256 で550kステップトレーニングされました。LAION-NSFW分類器を使用して punsafe=0.1 で、審美スコアが 4.5 以上のものを選択しました。同じデータセットで解像度 >= 512x512 のもので、解像度 512x512 で850kステップトレーニングされました。
768-v-ema.ckpt：512-base-ema.ckpt から再開され、同じデータセットで v-objective を使用して150kステップトレーニングされました。その後、データセットの 768x768 サブセットでさらに140kステップトレーニングされました。
512-depth-ema.ckpt：512-base-ema.ckpt から再開され、200kステップファインチューニングされました。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加の入力チャンネルが追加され、追加の条件付けとして使用されます。この追加情報を処理するU-Netの追加入力チャンネルはゼロ初期化されています。
512-inpainting-ema.ckpt：512-base-ema.ckpt から再開され、さらに200kステップトレーニングされました。LAMA で提示されたマスク生成戦略に従い、マスクされた画像の潜在VAE表現と組み合わせて、追加の条件付けとして使用されます。この追加情報を処理するU-Netの追加入力チャンネルはゼロ初期化されています。同じ戦略が 1.5-inpaintingチェックポイントのトレーニングにも使用されました。
x4-upscaling-ema.ckpt：LAIONの10Mサブセットで、画像 >2048x2048 を含むものを使用して1.25Mステップトレーニングされました。モデルはサイズ 512x512 のクロップでトレーニングされ、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_level を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。
ハードウェア：32 x 8 x A100 GPU
オプティマイザー：AdamW
勾配累積：1
バッチ：32 x 8 x 2 x 4 = 2048
学習率：10,000ステップで0.0001までウォームアップし、その後一定に保たれます。

評価結果

異なる分類器フリーガイダンススケール（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）と50ステップのDDIMサンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。 pareto

COCO2017検証セットからの10000個のランダムなプロンプトを使用して、50 DDIMステップで評価され、解像度512x512で評価されました。FIDスコアについては最適化されていません。

環境への影響

Stable Diffusion v1の推定排出量

この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダー、およびコンピューティングリージョンを利用して、炭素排出量を推定しています。

ハードウェアタイプ：A100 PCIe 40GB
使用時間：200000時間
クラウドプロバイダー：AWS
コンピューティングリージョン：US-east
排出された炭素（電力消費量 x 時間 x 電力グリッドの位置に基づく炭素排出量）：15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

このモデルカードは、Robin Rombach、Patrick Esser、およびDavid Haによって作成され、Stable Diffusion v1 および DALL-E Miniモデルカードをベースにしています。

📄 ライセンス

このモデルは CreativeML Open RAIL++-M License の下で提供されています。

⚠️ 重要提示

このモデルは研究目的のみを想定しています。誤用や悪意のある使用は避けてください。

💡 使用建议

メモリ効率の良いアテンションを使用するために、xformers をインストールすることをおすすめします。低GPU RAMの場合、pipe.enable_attention_slicing() を使用してVRAM使用量を減らすことができますが、速度が低下する可能性があります。