🚀 Stable Diffusion v2-1-unclip モデルカード
このモデルカードは、Stable Diffusion v2-1モデルに関連するモデルに焦点を当てています。コードベースはこちらで入手できます。
この stable-diffusion-2-1-unclip
はStable Diffusion 2.1の微調整版で、テキストプロンプトに加えて(ノイズのある)CLIP画像埋め込みを受け入れるように改変されています。画像のバリエーションを作成する(例)ために使用したり、テキストから画像へのCLIP事前学習モデルと連鎖させることができます。画像埋め込みに追加されるノイズの量は、noise_levelを介して指定できます(0はノイズなし、1000は完全なノイズ)。
📚 ドキュメント
モデルの詳細
-
開発者: Robin Rombach, Patrick Esser
-
モデルの種類: 拡散ベースのテキストから画像への生成モデル
-
言語: 英語
-
ライセンス: CreativeML Open RAIL++-M License
-
モデルの説明: これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。固定された事前学習済みのテキストエンコーダー (OpenCLIP-ViT/H) を使用する 潜在拡散モデル です。
-
詳細情報のリソース: GitHubリポジトリ
-
引用方法:
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
利用例
🤗のDiffusersライブラリ を使用して、Stable Diffusion UnCLIP 2-1-smallを簡単かつ効率的に実行します。
pip install diffusers transformers accelerate scipy safetensors
パイプラインを実行します(スケジューラーを交換しない場合、デフォルトのDDIMで実行されます。この例では、DPMSolverMultistepSchedulerに交換しています)。
from diffusers import DiffusionPipeline
from diffusers.utils import load_image
import torch
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1-unclip-small", torch_dtype=torch.float16)
pipe.to("cuda")
url = "https://huggingface.co/datasets/hf-internal-testing/diffusers-images/resolve/main/stable_unclip/tarsila_do_amaral.png"
image = load_image(url)
image = pipe(image).images[0]

使用方法
直接利用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
- 生成モデルの制限やバイアスの調査と理解
- 芸術作品の生成とデザインやその他の芸術的プロセスでの使用
- 教育または創造的なツールでの応用
- 生成モデルに関する研究
除外される使用法については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションは元々 DALLE-MINIモデルカード から引用されたもので、Stable Diffusion v1に使用されていましたが、Stable Diffusion v2にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを個人に残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成
- 差別的なコンテンツや有害なステレオタイプの意図的な宣伝または拡散
- 本人の同意なしでの個人のなりすまし
- 見る人の同意なしの性的コンテンツ
- 誤情報と偽情報
- 重大な暴力や血腥い描写
- 著作権またはライセンスされた素材の使用条件に違反した共有
- 著作権またはライセンスされた素材の改変コンテンツの使用条件に違反した共有
制限とバイアス
制限
- このモデルは完全な写真的リアリズムを達成しません
- このモデルは読めるテキストをレンダリングできません
- このモデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません
- 顔や人全体が適切に生成されない場合があります
- このモデルは主に英語のキャプションで訓練されており、他の言語では同じように機能しません
- このモデルのオートエンコーダー部分は損失があります
- このモデルは大規模データセット LAION-5B のサブセットで訓練されており、成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAIONのNFSW検出器を使用してデータセットをフィルタリングしています(訓練セクションを参照)。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusionは主に LAION-2B(en) のサブセットで訓練されており、これは英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、白人や西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。Stable Diffusion v2はバイアスを反映し、悪化させる程度が大きいため、入力やその意図に関係なく、閲覧者の慎重な判断が必要です。
訓練
訓練データ
モデル開発者は、モデルの訓練に以下のデータセットを使用しました。
- LAION-5Bとそのサブセット(詳細は以下)。訓練データは、LAIONのNSFW検出器を使用してさらにフィルタリングされており、「p_unsafe」スコアが0.1(保守的)です。詳細については、LAION-5Bの NeurIPS 2022 の論文とこのトピックに関するレビューアーの議論を参照してください。
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定します。ハードウェア、実行時間、クラウドプロバイダー、およびコンピューティングリージョンを利用して、炭素排出量を推定しました。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 200000時間
- クラウドプロバイダー: AWS
- コンピューティングリージョン: US-east
- 排出された炭素量 (電力消費 x 時間 x 電力網の位置に基づく炭素排出量): 15000 kg CO2 eq.
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High-Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684-10695}
}
このモデルカードは、Robin Rombach、Patrick Esser、およびDavid Haによって作成され、Stable Diffusion v1 および DALL-E Miniモデルカード に基づいています。