Stable Diffusion 2-1オープンソース画像生成モデル - テキストプロンプトで無料で絵を描き、画像を編集する

ホーム

Stable Diffusion 2 1

stabilityaiによって開発

拡散ベースのテキストから画像を生成するモデルで、テキストプロンプトによる画像生成と編集をサポート

画像生成 #テキストから画像を生成する拡散モデル #OpenCLIPテキストエンコーディング #768px高解像度

ダウンロード数 948.75k

リリース時間 : 12/6/2022

モデル概要

Stable Diffusion v2-1はv2バージョンをさらに微調整したテキストから画像を生成するモデルで、潜在拡散アーキテクチャとOpenCLIPテキストエンコーダを採用し、高品質な画像を生成可能

モデル特徴

高品質画像生成

768x768解像度でトレーニングされており、細部まで豊かな画像を生成可能

安全フィルタリング機構

トレーニングデータはNSFW検出器でフィルタリング済み（p_unsafe=0.1）

改良された微調整戦略

2段階の微調整を採用（55kステップpunsafe=0.1 + 155kステップpunsafe=0.98）

OpenCLIPテキストエンコーディング

OpenCLIP-ViT/Hをテキストエンコーダとして使用し、テキスト理解能力を強化

モデル能力

テキストから画像生成

画像編集

アート創作

デザイン支援

使用事例

アート創作

コンセプトアート生成

テキスト記述に基づき迅速にコンセプトアートを生成

様々なスタイルのクリエイティブな画像を生成可能

教育研究

生成モデル研究

生成モデルの限界やバイアスを研究するために使用

生成コンテンツにおける社会的バイアスの分析が可能

🚀 Stable Diffusion v2-1 モデルカード

このモデルカードは、Stable Diffusion v2-1 モデルに関連するモデルに焦点を当てています。コードベースはこちらで入手できます。

この stable-diffusion-2-1 モデルは、stable-diffusion-2 (768-v-ema.ckpt) から微調整され、同じデータセットで追加の 55k ステップ (punsafe=0.1) を行い、その後 punsafe=0.98 でさらに 155k ステップ微調整されています。

stablediffusion リポジトリで使用する場合は、こちらから v2-1_768-ema-pruned.ckpt をダウンロードしてください。
🧨 diffusers で使用することもできます。

🚀 クイックスタート

このモデルを使って画像生成を始めるには、以下の手順に従ってください。まずは必要なライブラリをインストールし、その後パイプラインを実行します。

✨ 主な機能

テキストプロンプトに基づいて画像を生成および変更することができます。
様々なチェックポイントを提供しており、異なるタスクや条件に対応できます。

📦 インストール

🤗's Diffusers library を使用して、Stable Diffusion 2 を簡単かつ効率的に実行するには、以下のコマンドを実行して必要なライブラリをインストールします。

pip install diffusers transformers accelerate scipy safetensors

💻 使用例

基本的な使用法

以下のコードは、Stable Diffusion 2 を使用して画像を生成する基本的な例です。パイプラインを実行し、指定したプロンプトに基づいて画像を生成します。

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

高度な使用法

メモリ効率の高いアテンションを実現するために、xformers をインストールすることを強くおすすめします。
GPU の RAM が少ない場合は、cuda に送った後に pipe.enable_attention_slicing() を追加することで、VRAM の使用量を減らすことができます（ただし速度が低下します）。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	CreativeML Open RAIL++-M License
モデル説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用します。
詳細情報のリソース	GitHub Repository
引用形式	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

利用方法

直接利用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下のようなものがあります。

有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限やバイアスの調査と理解。
アートワークの生成およびデザインやその他の芸術的なプロセスでの利用。
教育または創造的なツールでのアプリケーション。
生成モデルに関する研究。

除外される利用方法については以下で説明します。

誤用、悪意のある利用、および範囲外の利用

このモデルは、人々に敵意や疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

範囲外の利用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。

誤用および悪意のある利用

このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下のようなものが含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
差別的なコンテンツや有害なステレオタイプを意図的に宣伝または拡散すること。
本人の同意なしでの個人のなりすまし。
見る人の同意なしの性的なコンテンツ。
誤情報や偽情報。
重大な暴力や残虐な描写。
著作権またはライセンスされた材料をその使用条件に違反して共有すること。
著作権またはライセンスされた材料をその使用条件に違反して改変したコンテンツを共有すること。

制限とバイアス

制限

完全な写実性を達成することはできません。
読み取り可能なテキストをレンダリングすることはできません。
「青い球体の上に赤い立方体がある」などの構成性を必要とする難しいタスクではうまく機能しません。
顔や人物全体が適切に生成されない場合があります。
主に英語のキャプションで訓練されているため、他の言語ではうまく機能しません。
モデルのオートエンコーダー部分は損失があります。
モデルは大規模データセット LAION-5B のサブセットで訓練されており、成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAION の NFSW 検出器を使用してデータセットをフィルタリングしています（訓練セクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion は主に LAION-2B(en) のサブセットで訓練されており、英語の説明に限定された画像から構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、非英語のプロンプトでコンテンツを生成するモデルの能力は、英語のプロンプトと比較して大幅に劣ります。Stable Diffusion v2 は、入力やその意図に関係なく、バイアスを反映し、悪化させる程度が高いため、閲覧者の裁量が必要です。

訓練

訓練データ

モデル開発者は、以下のデータセットをモデルの訓練に使用しています。

LAION-5B およびそのサブセット（詳細は以下）。訓練データは、LAION の NSFW 検出器を使用してさらにフィルタリングされており、「p_unsafe」スコアは 0.1（保守的）です。詳細については、LAION-5B の NeurIPS 2022 論文とこのトピックに関するレビューアーの議論を参照してください。

訓練手順

Stable Diffusion v2 は、オートエンコーダーと拡散モデルを組み合わせた潜在拡散モデルであり、オートエンコーダーの潜在空間で訓練されます。訓練中は以下の手順を行います。

画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数 8 を使用し、形状 H x W x 3 の画像を形状 H/f x W/f x 4 の潜在表現にマッピングします。
テキストプロンプトは OpenCLIP-ViT/H テキストエンコーダーを通じてエンコードされます。
テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルの UNet バックボーンに入力されます。
損失は、潜在表現に追加されたノイズと UNet による予測との間の再構成目的です。また、いわゆる v-objective も使用しています（https://arxiv.org/abs/2202.00512 を参照）。

現在、以下のチェックポイントを提供しています。

512-base-ema.ckpt：LAION-5B のサブセットで、明示的なポルノグラフィック素材をフィルタリングしたものを使用して、解像度 256x256 で 550k ステップ訓練しました。LAION-NSFW 分類器を使用して punsafe=0.1 とし、美学スコア >= 4.5 としました。同じデータセットで解像度 >= 512x512 で 850k ステップ、解像度 512x512 で訓練しました。
768-v-ema.ckpt：512-base-ema.ckpt から再開し、同じデータセットで v-objective を使用して 150k ステップ訓練しました。データセットの 768x768 サブセットでさらに 140k ステップ訓練しました。
512-depth-ema.ckpt：512-base-ema.ckpt から再開し、200k ステップ微調整しました。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加の入力チャネルを追加し、追加の条件として使用します。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。
512-inpainting-ema.ckpt：512-base-ema.ckpt から再開し、さらに 200k ステップ訓練しました。LAMA に提示されたマスク生成戦略に従い、マスクされた画像の潜在 VAE 表現と組み合わせて、追加の条件として使用します。この追加情報を処理する U-Net の追加入力チャネルはゼロ初期化されています。同じ戦略が 1.5-inpainting チェックポイントの訓練にも使用されています。
x4-upscaling-ema.ckpt：LAION の 10M サブセットで、画像 >2048x2048 を含むもので 1.25M ステップ訓練しました。モデルはサイズ 512x512 のクロップで訓練され、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_level を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。
ハードウェア：32 x 8 x A100 GPU
オプティマイザー：AdamW
勾配蓄積：1
バッチ：32 x 8 x 2 x 4 = 2048
学習率：10,000 ステップで 0.0001 にウォームアップし、その後一定に保ちます。

評価結果

異なる分類器フリーガイダンススケール（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）および 50 ステップの DDIM サンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

pareto

50 ステップの DDIM と COCO2017 検証セットからの 10000 個のランダムなプロンプトを使用して評価し、解像度 512x512 で評価しました。FID スコアには最適化されていません。

環境への影響

Stable Diffusion v1 推定排出量

この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下の CO2 排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンを使用して、炭素影響を推定しました。

ハードウェアタイプ：A100 PCIe 40GB
使用時間：200000 時間
クラウドプロバイダー：AWS
コンピュートリージョン：US-east
排出された炭素（電力消費 x 時間 x 電力網の位置に基づく炭素排出量）：15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

このモデルカードは、Robin Rombach、Patrick Esser、および David Ha によって作成され、Stable Diffusion v1 および DALL-E Mini モデルカードをベースにしています。