🚀 Stable Diffusion v1-5
Stable Diffusionは、任意のテキスト入力を元に、写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。このモデルは、テキストに基づく画像生成の研究やアート作品の創作など、様々な用途に利用できます。
🚀 クイックスタート
このリポジトリは、The CreativeML OpenRAIL - M Licenseに基づいてHuggingFaceに再アップロードされています。元のファイルは[modelscope](https://www.modelscope.cn/models/AI - ModelScope/stable - diffusion - v1 - 5)から取得され、チェックサムによりファイルの整合性が検証されています。
Stable Diffusion v1 - 5を使用するには、🧨Diffusersライブラリを利用できます。
✨ 主な機能
- 任意のテキスト入力から写真のようにリアルな画像を生成できます。
- 潜在的な拡散モデルを利用しているため、効率的な画像生成が可能です。
- 異なるチェックポイントを使用することで、生成される画像の質や特性を調整できます。
📦 インストール
Diffusersライブラリを使用するには、以下のコマンドでインストールできます。
pip install diffusers
💻 使用例
基本的な使用法
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"benjamin - paine/stable - diffusion - v1 - 5",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
高度な使用法
より詳細な使用方法やJAXでの使用例については、[こちら](https://github.com/huggingface/diffusers#text - to - image - generation - with - stable - diffusion)の指示に従ってください。
📚 ドキュメント
モデル詳細
属性 |
详情 |
開発者 |
Robin Rombach, Patrick Esser |
モデルタイプ |
拡散ベースのテキストから画像への生成モデル |
言語 |
英語 |
ライセンス |
[The CreativeML OpenRAIL M license](https://huggingface.co/spaces/CompVis/stable - diffusion - license) は [Open RAIL M license](https://www.licenses.ai/blog/2022/8/18/naming - convention - of - responsible - ai - licenses) で、BigScience と the RAIL Initiative が共同で行っている責任あるAIライセンスの分野の作業から適応されています。 |
モデル説明 |
このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。Latent Diffusion Model で、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT - L/14) を使用しています。 |
詳細情報のリソース |
[GitHub Repository](https://github.com/CompVis/stable - diffusion), Paper |
モデルの使用
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野やタスクには以下のものが含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限やバイアスの調査と理解。
- アート作品の生成やデザインやその他のアートプロセスでの使用。
- 教育や創造的なツールでの応用。
- 生成モデルに関する研究。
誤用、悪用、および範囲外の使用
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じるであろう画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
制限とバイアス
制限
- モデルは完全な写真のようなリアリズムを達成できません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球の上に赤い立方体」のような構成性を含む難しいタスクではうまく機能しません。
- 顔や人物全体が適切に生成されない場合があります。
- モデルは主に英語のキャプションで学習されており、他の言語ではうまく機能しません。
- モデルのオートエンコーダ部分は損失があります。
- モデルは大規模なデータセット [LAION - 5B](https://laion.ai/blog/laion - 5b/) で学習されており、成人向けの素材が含まれているため、追加の安全メカニズムや考慮なしには製品での使用に適していません。
- データセットの重複排除に追加の対策は取られていません。その結果、学習データに重複する画像についてある程度の記憶が見られます。学習データは [https://rom1504.github.io/clip - retrieval/](https://rom1504.github.io/clip - retrieval/) で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、主に英語の説明に限定された画像からなる [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) のサブセットで学習されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これは、モデルの全体的な出力に影響を与え、白人や西洋文化がデフォルトとして設定されることが多いです。さらに、非英語のプロンプトでのコンテンツ生成能力は、英語のプロンプトと比較して著しく劣ります。
安全モジュール
このモデルの意図された使用方法は、Diffusersの Safety Checker を使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と比較することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは画像生成後の CLIPTextModel
の埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は、生成された画像とともにモデルに渡され、各NSFW概念に対する手動で設計された重みと比較されます。
🔧 技術詳細
学習データ
モデル開発者は、以下のデータセットをモデルの学習に使用しました。
- LAION - 2B (en) およびそのサブセット
学習手順
Stable Diffusion v1 - 5は、オートエンコーダと拡散モデルを組み合わせた潜在的な拡散モデルで、オートエンコーダの潜在空間で学習されます。学習中は以下の手順が行われます。
- 画像はエンコーダを通じてエンコードされ、潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状が H x W x 3 の画像を形状が H/f x W/f x 4 の潜在表現にマッピングします。
- テキストプロンプトはViT - L/14テキストエンコーダを通じてエンコードされます。
- テキストエンコーダの非プール出力は、クロスアテンションを介して潜在的な拡散モデルのUNetバックボーンに入力されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。
学習パラメータ
- ハードウェア: 32 x 8 x A100 GPUs
- オプティマイザ: AdamW
- 勾配累積: 2
- バッチ: 32 x 8 x 2 x 4 = 2048
- 学習率: 10,000ステップで0.0001までウォームアップし、その後一定に保たれます。
評価結果
異なる分類器フリーガイダンススケール (1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) と50 PNDM/PLMSサンプリングステップを使用した評価では、チェックポイントの相対的な改善が示されています。

COCO2017検証セットからの10000個のランダムなプロンプトを使用して、50 PLMSステップで評価され、512x512解像度で評価されました。FIDスコアに最適化されていません。
環境への影響
Stable Diffusion v1 推定排出量
この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定しています。ハードウェア、実行時間、クラウドプロバイダ、およびコンピュートリージョンを利用して、炭素影響を推定しています。
- ハードウェアタイプ: A100 PCIe 40GB
- 使用時間: 150000時間
- クラウドプロバイダ: AWS
- コンピュートリージョン: US - east
- 排出された炭素 (電力消費 x 時間 x 電力網の位置に基づく炭素生成): 11250 kg CO2 eq.
📄 ライセンス
このモデルは [The CreativeML OpenRAIL M license](https://huggingface.co/spaces/CompVis/stable - diffusion - license) の下で提供されています。
引用
@InProceedings{Rombach_2022_CVPR,
author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
title = {High - Resolution Image Synthesis With Latent Diffusion Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2022},
pages = {10684 - 10695}
}