Stable Diffusion 2-1 Img2imgオープンソースモデル - 無料の画像生成と編集をサポート

Stable Diffusion 2 1 Img2img

radamesによって開発

拡散ベースのテキストから画像生成モデルで、画像生成と編集をサポート

ダウンロード数 115

リリース時間 : 10/16/2023

モデル概要

Stable Diffusion v2-1は潜在拡散モデルに基づくテキストから画像生成システムで、テキストプロンプトに応じて高品質な画像を生成し、画像修正機能をサポートします。このモデルはテキストエンコーダーとしてOpenCLIP-ViT/Hを使用し、LAION-5Bデータセットのサブセットでトレーニングされました。

モデル特徴

高品質画像生成

テキストプロンプトに基づいて高解像度（最大768x768）のリアルな画像を生成可能

画像編集機能

テキストプロンプトに基づいて既存画像の修正・編集をサポート

安全フィルタリング

トレーニング時にNSFW検出器を使用して安全でないコンテンツをフィルタリング（p_unsafe=0.1）

多解像度サポート

512x512と768x768の2種類の解像度モデルを提供

モデル能力

テキストから画像生成

画像編集

画像超解像

深度条件付き画像生成

画像修復

使用事例

アート創作

コンセプトアート創作

アーティストがモデルを使用して迅速にコンセプトアート作品を生成

創作プロセスを加速し、創造的なインスピレーションを提供

教育研究

生成モデル研究

生成モデルの限界やバイアスを研究するために使用

AI生成コンテンツの特性理解に役立つ

デザインツール

製品プロトタイプ設計

デザイナーが迅速に製品プロトタイプ画像を生成

設計反復プロセスを加速

🚀 Stable Diffusion v2-1 モデルカード

このモデルカードは、Stable Diffusion v2-1 モデルに関連するモデルに焦点を当てています。コードベースはこちらで入手できます。

この stable-diffusion-2-1 モデルは、stable-diffusion-2 (768-v-ema.ckpt) から微調整され、同じデータセットで追加の 55k ステップ (punsafe=0.1) を行い、その後さらに 155k ステップ (punsafe=0.98) で微調整されています。

stablediffusion リポジトリで使用する場合は、v2-1_768-ema-pruned.ckpt をこちらからダウンロードしてください。
🧨 diffusers で使用することもできます。

✨ 主な機能

このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。固定された事前学習済みのテキストエンコーダ (OpenCLIP-ViT/H) を使用する Latent Diffusion Model です。

📦 インストール

🤗's Diffusers library を使用して、Stable Diffusion 2 を簡単かつ効率的に実行するには、以下のコマンドを実行します。

pip install diffusers transformers accelerate scipy safetensors

💻 使用例

基本的な使用法

パイプラインを実行するには（スケジューラを交換しない場合、デフォルトの DDIM で実行されます。この例では、DPMSolverMultistepScheduler に交換しています）、以下のコードを実行します。

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

高度な使用法

⚠️ 重要提示

依存関係ではありませんが、メモリ効率の高いアテンション（より良いパフォーマンス）のために、xformers をインストールすることを強くおすすめします。

💡 使用建议

GPU の RAM が少ない場合は、cuda に送信した後に pipe.enable_attention_slicing() を追加すると、VRAM の使用量を減らすことができます（ただし、速度が低下します）。

📚 ドキュメント

モデル詳細

属性	详情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	Diffusion-based text-to-image generation model
言語	English
ライセンス	CreativeML Open RAIL++-M License
モデル説明	これは、テキストプロンプトに基づいて画像を生成および修正するために使用できるモデルです。固定された事前学習済みのテキストエンコーダ (OpenCLIP-ViT/H) を使用する Latent Diffusion Model です。
詳細情報のリソース	GitHub Repository
引用	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

使用方法

直接使用

このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限とバイアスの調査と理解。
アートワークの生成とデザインや他のアートプロセスでの使用。
教育または創造的なツールでのアプリケーション。
生成モデルに関する研究。

除外される使用法については以下で説明します。

誤用、悪意のある使用、および範囲外の使用

このセクションは元々 DALLE-MINI モデルカードから引用されたもので、Stable Diffusion v1 で使用されていましたが、Stable Diffusion v2 にも同様に適用されます。

このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

範囲外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
差別的なコンテンツや有害なステレオタイプの意図的な宣伝または拡散。
本人の同意なしでの個人のなりすまし。
見る人の同意なしでの性的なコンテンツ。
誤情報と偽情報。
重大な暴力やグロテスクな表現。
著作権またはライセンスされた素材をその使用条件に違反して共有すること。
著作権またはライセンスされた素材の改変コンテンツをその使用条件に違反して共有すること。

制限とバイアス

制限

このモデルは完全な写真的写実性を達成しません。
このモデルは読み取り可能なテキストをレンダリングできません。
このモデルは、「青い球の上に赤い立方体」に対応する画像のレンダリングなど、構成性を伴うより難しいタスクではうまく機能しません。
顔や人全体が適切に生成されない場合があります。
このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
このモデルのオートエンコーダ部分は損失があります。
このモデルは大規模データセット LAION-5B のサブセットで訓練されており、成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAION の NFSW 検出器を使用してデータセットをフィルタリングしています（トレーニングセクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion は主に LAION-2B(en) のサブセットで訓練されており、英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストと画像は、十分に考慮されていない可能性があります。これはモデルの全体的な出力に影響を与え、白人や西洋文化がしばしばデフォルトとして設定されます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。Stable Diffusion v2 はバイアスを反映し、悪化させる程度が高いため、入力やその意図に関係なく、閲覧者の判断が必要です。

トレーニング

トレーニングデータ

モデル開発者は以下のデータセットをモデルのトレーニングに使用しました。

LAION-5B とそのサブセット（詳細は以下）。トレーニングデータはさらに LAION の NSFW 検出器を使用してフィルタリングされ、「p_unsafe」スコアが 0.1（保守的）です。詳細については、LAION-5B の NeurIPS 2022 論文とそのトピックに関するレビューアの議論を参照してください。

トレーニング手順

Stable Diffusion v2 は、オートエンコーダとオートエンコーダの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。トレーニング中は以下のようになります。

画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数 8 を使用し、形状 H x W x 3 の画像を形状 H/f x W/f x 4 の潜在表現にマッピングします。
テキストプロンプトは OpenCLIP-ViT/H テキストエンコーダを通じてエンコードされます。
テキストエンコーダの出力は、クロスアテンションを介して潜在拡散モデルの UNet バックボーンに供給されます。
損失は、潜在表現に追加されたノイズと UNet による予測の間の再構成目的です。また、いわゆる v-objective も使用しています（https://arxiv.org/abs/2202.00512 を参照）。

現在、以下のチェックポイントを提供しています。

512-base-ema.ckpt：LAION-5B のサブセットで、明示的なポルノグラフィック素材をフィルタリングし、LAION-NSFW 分類器を使用して punsafe=0.1 および審美スコア >= 4.5 で、解像度 256x256 で 550k ステップ。同じデータセットで解像度 >= 512x512 で 850k ステップ。
768-v-ema.ckpt：512-base-ema.ckpt から再開し、同じデータセットで v-objective を使用して 150k ステップ訓練。同じデータセットの 768x768 サブセットでさらに 140k ステップ再開。
512-depth-ema.ckpt：512-base-ema.ckpt から再開し、200k ステップ微調整。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加の入力チャンネルを追加し、追加の条件付けとして使用します。この追加情報を処理する U-Net の追加入力チャンネルはゼロ初期化されています。
512-inpainting-ema.ckpt：512-base-ema.ckpt から再開し、さらに 200k ステップ訓練。LAMA で提示されたマスク生成戦略に従い、マスクされた画像の潜在 VAE 表現と組み合わせて、追加の条件付けとして使用します。この追加情報を処理する U-Net の追加入力チャンネルはゼロ初期化されています。同じ戦略が 1.5-inpainting チェックポイントの訓練にも使用されました。
x4-upscaling-ema.ckpt：LAION の 10M サブセットで、画像 >2048x2048 を使用して 1.25M ステップ訓練。このモデルはサイズ 512x512 のクロップで訓練され、テキストガイド付きの latent upscaling diffusion model です。テキスト入力に加えて、noise_level を入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。
ハードウェア：32 x 8 x A100 GPUs
オプティマイザ：AdamW
勾配蓄積：1
バッチ：32 x 8 x 2 x 4 = 2048
学習率：10,000 ステップで 0.0001 までウォームアップし、その後一定に保ちます。

評価結果

異なる分類器フリーガイダンススケール（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）と 50 ステップの DDIM サンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

pareto

50 DDIM ステップと COCO2017 検証セットからの 10000 個のランダムなプロンプトを使用して評価され、解像度 512x512 で評価されました。FID スコアに最適化されていません。

環境への影響

Stable Diffusion v1 推定排出量

この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下の CO2 排出量を推定します。ハードウェア、実行時間、クラウドプロバイダ、およびコンピュートリージョンを利用して、炭素排出量を推定しました。

ハードウェアタイプ：A100 PCIe 40GB
使用時間：200000 時間
クラウドプロバイダ：AWS
コンピュートリージョン：US-east
排出された炭素（消費電力 x 時間 x 電力網の位置に基づく炭素排出量）：15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

このモデルカードは Robin Rombach、Patrick Esser、および David Ha によって作成され、Stable Diffusion v1 および DALL-E Mini モデルカードに基づいています。