モデル概要
モデル特徴
モデル能力
使用事例
🚀 Stable Diffusion v1-4 モデルカード
Stable Diffusionは、任意のテキスト入力を元に写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。 Stable Diffusionの機能について詳しくは、🤗のStable Diffusion with 🧨Diffusersブログをご覧ください。
Stable-Diffusion-v1-4 チェックポイントは、Stable-Diffusion-v1-2 チェックポイントの重みで初期化され、その後、解像度512x512で225kステップ、「laion-aesthetics v2 5+」で微調整され、分類器なしガイダンスサンプリングを改善するためにテキスト条件付けを10%ドロップしました。
ここの重みは、🧨 Diffusersライブラリで使用することを想定しています。CompVis Stable Diffusionコードベースにロードする重みを探している場合は、こちらをご覧ください。
📚 詳細ドキュメント
モデルの詳細
属性 | 詳情 |
---|---|
開発者 | Robin Rombach, Patrick Esser |
モデルタイプ | 拡散ベースのテキストから画像への生成モデル |
言語 | 英語 |
ライセンス | The CreativeML OpenRAIL M license は、Open RAIL M license であり、BigScience と the RAIL Initiative が共同で責任あるAIライセンスの分野で行っている作業から適応されています。また、私たちのライセンスが基づいている the article about the BLOOM Open RAIL license も参照してください。 |
モデルの説明 | これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Model であり、Imagen paper で提案されているように、固定された事前学習済みのテキストエンコーダ (CLIP ViT-L/14) を使用しています。 |
詳細情報のリソース | GitHub Repository, Paper |
引用 | @InProceedings{Rombach_2022_CVPR, |
利用例
私たちは、Stable Diffusionを実行するために 🤗のDiffusersライブラリ の使用をお勧めします。
基本的な使用法
pip install --upgrade diffusers transformers scipy
デフォルトのPNDMスケジューラでパイプラインを実行する:
import torch
from diffusers import StableDiffusionPipeline
model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
⚠️ 重要提示
GPUメモリが制限され、利用可能なGPU RAMが4GB未満の場合は、上記のようにデフォルトのfloat32精度ではなく、float16精度でStableDiffusionPipelineをロードするようにしてください。これは、diffusersに重みがfloat16精度であることを期待するように指示することで行うことができます。
import torch
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
pipe.enable_attention_slicing()
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
ノイズスケジューラを交換するには、from_pretrained
に渡します:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
model_id = "CompVis/stable-diffusion-v1-4"
# ここではEulerスケジューラを使用する
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
高度な使用法
TPUやGPUでStableDiffusionを使用してより高速な推論を行うには、JAX/Flaxを利用できます。
デフォルトのPNDMSchedulerでパイプラインを実行する
import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard
from diffusers import FlaxStableDiffusionPipeline
pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", revision="flax", dtype=jax.numpy.bfloat16
)
prompt = "a photo of an astronaut riding a horse on mars"
prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50
num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)
# 入力と乱数生成器をシャーディングする
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)
images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))
⚠️ 重要提示
TPUメモリが制限されている場合は、上記のようにデフォルトの
float32
精度ではなく、bfloat16
精度でFlaxStableDiffusionPipeline
をロードするようにしてください。これは、diffusersに「bf16」ブランチから重みをロードするように指示することで行うことができます。
import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard
from diffusers import FlaxStableDiffusionPipeline
pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4", revision="bf16", dtype=jax.numpy.bfloat16
)
prompt = "a photo of an astronaut riding a horse on mars"
prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50
num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)
# 入力と乱数生成器をシャーディングする
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)
images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))
用途
直接利用
このモデルは研究目的のみを想定しています。考えられる研究分野やタスクには以下が含まれます。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの限界とバイアスの調査と理解。
- アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
- 教育または創造的なツールでの応用。
- 生成モデルに関する研究。
除外される用途については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注: このセクションは DALLE-MINIモデルカード から引用されていますが、Stable Diffusion v1にも同様に適用されます。
このモデルは、人々に敵意的または疎外感を与える環境を生み出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像の生成や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを個人に対して残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
- 差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または広めること。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしの性的なコンテンツ。
- 誤情報とディスインフォメーション
- 重大な暴力とグロテスクな描写
- 著作権またはライセンスされた素材をその使用条件に違反して共有すること。
- 著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。
制限とバイアス
制限
- このモデルは完全な写真のようなリアリズムを達成しません。
- このモデルは読み取り可能なテキストをレンダリングできません。
- このモデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
- 顔や人全体が適切に生成されない場合があります。
- このモデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
- このモデルの自動符号化部分は損失があります。
- このモデルは大規模なデータセット LAION-5B で訓練されており、成人向けの素材が含まれており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
- データセットを重複排除するための追加の措置は取られていません。その結果、訓練データに重複する画像についてある程度の記憶が見られます。訓練データは https://rom1504.github.io/clip-retrieval/ で検索でき、記憶された画像の検出に役立つ可能性があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的なバイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、LAION-2B(en) のサブセットで訓練されており、主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストや画像は、十分に考慮されていない可能性があります。これはモデルの全体的な出力に影響を与え、白人と西洋文化がしばしばデフォルトとして設定されます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して大幅に劣ります。
安全モジュール
このモデルの意図された使用法は、Diffusersの Safety Checker を使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と照合することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは画像生成 後 の CLIPTextModel
の埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は生成された画像とともにモデルに渡され、各NSFW概念の手動で設計された重みと比較されます。
トレーニング
トレーニングデータ
モデル開発者は、モデルを訓練するために以下のデータセットを使用しました。
- LAION-2B (en) とそのサブセット (次のセクションを参照)
トレーニング手順
Stable Diffusion v1-4は、オートエンコーダと拡散モデルを組み合わせた潜在的な拡散モデルであり、オートエンコーダの潜在空間で訓練されます。トレーニング中は、
- 画像はエンコーダを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダは相対的なダウンサンプリング係数8を使用し、形状H x W x 3の画像を形状H/f x W/f x 4の潜在表現にマッピングします。
- テキストプロンプトはViT-L/14テキストエンコーダを通じてエンコードされます。
- テキストエンコーダの非プール出力は、クロスアテンションを介して潜在的な拡散モデルのUNetバックボーンに供給されます。
- 損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。
現在、以下のように訓練された4つのチェックポイントを提供しています。
stable-diffusion-v1-1
: 解像度256x256
で237,000ステップ、laion2B-en で。解像度512x512
で194,000ステップ、laion-high-resolution (LAION-5Bから解像度>= 1024x1024
の170Mの例) で。stable-diffusion-v1-2
:stable-diffusion-v1-1
から再開。解像度512x512
で515,000ステップ、「laion-improved-aesthetics」(laion2B-enのサブセットで、元のサイズ>= 512x512
、推定美学スコア> 5.0
、推定ウォーターマーク確率< 0.5
の画像にフィルタリングされています。ウォーターマークの推定はLAION-5Bのメタデータから、美学スコアは improved aesthetics estimator を使用して推定されています) で。stable-diffusion-v1-3
:stable-diffusion-v1-2
から再開。解像度512x512
で195,000ステップ、「laion-improved-aesthetics」で、分類器なしガイダンスサンプリング を改善するためにテキスト条件付けを10%ドロップしました。stable-diffusion-v1-4
stable-diffusion-v1-2
から再開。解像度512x512
で225,000ステップ、「laion-aesthetic」で。
📄 ライセンス
このモデルはオープンアクセスであり、すべての人が利用できます。CreativeML OpenRAIL-Mライセンスにより、さらに権利と使用方法が指定されています。
CreativeML OpenRAILライセンスでは、以下のことが指定されています。
- モデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはなりません。
- 作成者は、あなたが生成する出力に対して何らかの権利を主張しません。あなたはそれらを自由に使用でき、その使用について責任を負い、ライセンスに定められた規定に違反してはなりません。
- あなたは重みを再配布し、モデルを商業的におよび/またはサービスとして使用することができます。その場合、ライセンスと同じ使用制限を含め、CreativeML OpenRAIL-Mのコピーをすべてのユーザーに共有する必要があることに注意してください (ライセンス全体を注意深く読んでください)。
完全なライセンスをこちらで注意深くお読みください: https://huggingface.co/spaces/CompVis/stable-diffusion-license

