14t6オープンソース画像生成モデル - テキストプロンプトで画像を無料で生成・編集

ホーム

14t6

ismotによって開発

拡散ベースのテキストから画像を生成するモデルで、テキストプロンプトによる画像生成と編集をサポート

テキスト生成画像 #高解像度画像生成 #テキスト誘導拡散 #アート創作ツール

ダウンロード数 24

リリース時間 : 1/14/2023

モデル概要

Stable Diffusion v2-1はv2バージョンをさらに微調整した潜在拡散モデルで、OpenCLIP-ViT/Hテキストエンコーダーを採用し、高解像度画像生成をサポート

モデル特徴

高解像度生成

768x768解像度の画像生成をサポートし、前世代モデルよりも品質が向上

安全なトレーニング

p_unsafe=0.1の保守的な閾値でトレーニングデータをフィルタリングし、有害なコンテンツ生成を削減

マルチフレームワークサポート

diffusersライブラリとネイティブのstablediffusionコードベースの両方に対応

微調整最適化

v2ベースに210kステップ（55k保守ステップ+155k開放ステップ）を追加トレーニング

モデル能力

テキストから画像生成

画像編集

アート創作

デザイン支援

使用事例

アート創作

コンセプトアート生成

テキスト説明に基づいて迅速にコンセプトアートを生成

様々なスタイルのコンセプトデザインを生成可能

教育研究

生成モデル研究

生成モデルの限界とバイアスを研究するために使用

クリエイティブツール

デザインプロトタイプ生成

製品デザインのプロトタイプを迅速に生成

🚀 Stable Diffusion v2-1モデルカード

このモデルカードは、Stable Diffusion v2-1モデルに関連するモデルに焦点を当てています。コードベースはこちらで入手できます。

このstable-diffusion-2-1モデルは、stable-diffusion-2 (768-v-ema.ckpt) から微調整され、同じデータセットで追加の55kステップ（punsafe=0.1）、その後さらに155kステップ（punsafe=0.98）で微調整されています。

stablediffusionリポジトリで使用する場合は、こちらからv2-1_768-ema-pruned.ckptをダウンロードしてください。
🧨 diffusersで使用することもできます。

✨ 主な機能

このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。

📦 インストール

必要なライブラリのインストール

pip install diffusers transformers accelerate scipy safetensors

💻 使用例

基本的な使用法

🤗のDiffusersライブラリを使用して、Stable Diffusion 2を簡単かつ効率的に実行する方法です。

from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# ここではDPMSolverMultistepScheduler (DPM-Solver++) スケジューラーを使用します
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
    
image.save("astronaut_rides_horse.png")

使用上の注意

⚠️ 重要提示

依存関係には含まれていませんが、メモリ効率の良いアテンション（パフォーマンス向上）のために、xformersのインストールを強くおすすめします。

💡 使用建议

GPUのRAMが少ない場合は、cudaに送った後にpipe.enable_attention_slicing()を追加すると、VRAMの使用量を減らすことができます（ただし、速度が低下します）。

📚 ドキュメント

モデルの詳細

項目	詳細
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する潜在拡散モデルです。
詳細情報のリソース	GitHubリポジトリ
引用形式	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

モデルの使用方法

直接的な使用

このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限やバイアスの調査と理解。
アートワークの生成とデザインや他の芸術的なプロセスでの使用。
教育や創造的なツールでの応用。
生成モデルに関する研究。

除外される使用方法については以下で説明します。

誤用、悪意のある使用、および想定外の使用

このセクションは元々DALLE-MINIモデルカードから引用されたもので、Stable Diffusion v1に使用されていましたが、Stable Diffusion v2にも同様に適用されます。

このモデルは、人々に敵対的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはいけません。これには、人々が予見できる範囲で不快、苦痛、または不快感を感じる画像の生成や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

想定外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他有害な表現の生成。
差別的なコンテンツや有害なステレオタイプを意図的に宣伝または拡散すること。
本人の同意なしでの個人のなりすまし。
見る人の同意なしでの性的なコンテンツ。
誤情報や偽情報。
重大な暴力や残虐行為の表現。
著作権またはライセンスのある素材をその使用条件に違反して共有すること。
著作権またはライセンスのある素材をその使用条件に違反して改変したコンテンツを共有すること。

制限とバイアス

制限

このモデルは完全な写真的なリアリズムを達成しません。
このモデルは読み取り可能なテキストをレンダリングできません。
このモデルは、「青い球体の上に赤い立方体」のような構成性を必要とする難しいタスクではうまく機能しません。
顔や人物全体が適切に生成されない場合があります。
このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
このモデルのオートエンコーダー部分は損失があります。
このモデルは大規模データセットLAION-5Bのサブセットで訓練されており、成人向け、暴力的、性的なコンテンツが含まれています。これを部分的に軽減するために、LAIONのNFSW検出器を使用してデータセットをフィルタリングしています（訓練セクションを参照）。

バイアス

画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusionは主にLAION-2B(en)のサブセットで訓練されており、英語の説明に限定された画像から構成されています。他の言語を使用するコミュニティや文化のテキストや画像は十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して著しく劣ります。Stable Diffusion v2はバイアスを反映し、悪化させる程度が高いため、入力やその意図に関係なく、閲覧者の注意が必要です。

訓練

訓練データ

モデル開発者は、以下のデータセットをモデルの訓練に使用しました。

LAION-5Bとそのサブセット（詳細は以下）。訓練データは、LAIONのNSFW検出器を使用してさらにフィルタリングされており、「p_unsafe」スコアが0.1（保守的）です。詳細については、LAION-5BのNeurIPS 2022の論文とそのトピックに関するレビュアーの議論を参照してください。

訓練手順

Stable Diffusion v2は、オートエンコーダーとオートエンコーダーの潜在空間で訓練された拡散モデルを組み合わせた潜在拡散モデルです。訓練中は以下のように処理されます。

画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状がH x W x 3の画像を形状がH/f x W/f x 4の潜在表現にマッピングします。
テキストプロンプトはOpenCLIP-ViT/Hテキストエンコーダーを通じてエンコードされます。
テキストエンコーダーの出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに入力されます。
損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。また、いわゆる_v-objective_も使用しています（https://arxiv.org/abs/2202.00512 を参照）。

現在、以下のチェックポイントを提供しています。

512-base-ema.ckpt：LAION-5Bの明示的なポルノグラフィック素材をフィルタリングしたサブセットで、解像度256x256で550kステップ訓練されました。LAION-NSFW分類器を使用してpunsafe=0.1、審美スコアが4.5以上のものを使用しました。同じデータセットで解像度>= 512x512で850kステップ訓練されました。
768-v-ema.ckpt：512-base-ema.ckptから再開され、同じデータセットでv-objectiveを使用して150kステップ訓練されました。データセットの768x768サブセットでさらに140kステップ訓練されました。
512-depth-ema.ckpt：512-base-ema.ckptから再開され、200kステップ微調整されました。MiDaS (dpt_hybrid) によって生成された（相対的な）深度予測を処理するための追加の入力チャネルが追加されており、追加の条件として使用されます。この追加情報を処理するU-Netの追加入力チャネルはゼロ初期化されています。
512-inpainting-ema.ckpt：512-base-ema.ckptから再開され、さらに200kステップ訓練されました。LAMAで提示されたマスク生成戦略に従い、マスクされた画像の潜在VAE表現と組み合わせて、追加の条件として使用されます。この追加情報を処理するU-Netの追加入力チャネルはゼロ初期化されています。同じ戦略が1.5-inpaintingチェックポイントの訓練にも使用されました。
x4-upscaling-ema.ckpt：LAIONの10Mサブセット（画像サイズ>2048x2048）で1.25Mステップ訓練されました。モデルはサイズ512x512のクロップで訓練されており、テキストガイド付きの潜在アップスケーリング拡散モデルです。テキスト入力に加えて、noise_levelを入力パラメータとして受け取り、事前定義された拡散スケジュールに従って低解像度入力にノイズを追加するために使用できます。

訓練環境

ハードウェア：32 x 8 x A100 GPU
オプティマイザー：AdamW
勾配累積：1
バッチサイズ：32 x 8 x 2 x 4 = 2048
学習率：10,000ステップで0.0001にウォームアップし、その後一定に保たれます。

評価結果

異なる分類器フリーガイダンススケール（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）と50ステップのDDIMサンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

pareto

50 DDIMステップとCOCO2017検証セットからの10000個のランダムなプロンプトを使用して評価され、解像度512x512で評価されています。FIDスコアに最適化されていません。

環境への影響

Stable Diffusion v1の推定排出量

この情報に基づいて、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して、以下のCO2排出量を推定しています。ハードウェア、ランタイム、クラウドプロバイダー、およびコンピュートリージョンを利用して、炭素排出量を推定しています。

ハードウェアタイプ：A100 PCIe 40GB
使用時間：200000時間
クラウドプロバイダー：AWS
コンピュートリージョン：US-east
排出された炭素量（消費電力 x 時間 x 電力網の位置に基づく炭素排出量）：15000 kg CO2 eq.

引用

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

このモデルカードは、Robin Rombach、Patrick Esser、およびDavid Haによって作成され、Stable Diffusion v1とDALL-E Miniモデルカードをベースにしています。