Stable Diffusion v1-4オープンソース画像生成モデル - テキスト指令に基づいて無料でリアルな画像を生成する

ホーム

Stable Diffusion V1 4

CompVisによって開発

Stable Diffusionは潜在的なテキストから画像への拡散モデルで、任意のテキスト入力からリアルな画像を生成できます。

画像生成オープンソースライセンス:Openrail #テキストから画像生成 #アート創作 #高解像度生成

ダウンロード数 1.7M

リリース時間 : 8/20/2022

モデル概要

拡散ベースのテキストから画像生成モデルで、主にテキスト記述から高品質な画像を生成するために使用されます。

モデル特徴

高品質画像生成

テキスト入力から512x512解像度のリアルな画像を生成可能

クリエイティブアートツール

アート作品やクリエイティブデザインの生成に適している

オープンソースライセンス

OpenRAIL-Mライセンスを採用し、商用利用や重みの再配布を許可

モデル能力

テキストから画像生成

アート創作

クリエイティブデザイン

使用事例

アート創作

コンセプトアート生成

テキスト記述からコンセプトアート作品を生成

高品質なコンセプトアート画像

教育ツール

クリエイティブ教育やアート学習に使用

創造的な概念を直感的に表示

クリエイティブデザイン

製品コンセプトデザイン

製品デザインコンセプトを迅速に生成

多様なデザインオプション

🚀 Stable Diffusion v1 - 4 モデルカード

Stable Diffusionは、任意のテキスト入力に基づいて写真のようにリアルな画像を生成できる潜在的なテキストから画像への拡散モデルです。Stable Diffusionの機能について詳しくは、🤗のStable Diffusion with 🧨Diffusersブログを参照してください。

Stable - Diffusion - v1 - 4 チェックポイントは、Stable - Diffusion - v1 - 2 チェックポイントの重みで初期化され、その後、解像度512x512で225,000ステップ、「laion - aesthetics v2 5+」で微調整され、テキスト条件付けの10%をドロップして、分類器なしガイダンスサンプリングを改善しました。

ここの重みは、🧨 Diffusersライブラリで使用することを想定しています。CompVis Stable Diffusionコードベースに読み込む重みを探している場合は、こちらを参照してください。

🚀 クイックスタート

Stable Diffusionを実行するには、🤗のDiffusersライブラリの使用をおすすめします。

💻 使用例

基本的な使用法

pip install --upgrade diffusers transformers scipy

デフォルトのPNDMスケジューラーでパイプラインを実行するには：

import torch
from diffusers import StableDiffusionPipeline

model_id = "CompVis/stable-diffusion-v1-4"
device = "cuda"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  

image.save("astronaut_rides_horse.png")

注意： GPUメモリが制限されており、利用可能なGPU RAMが4GB未満の場合は、上記のようにデフォルトのfloat32精度ではなく、float16精度でStableDiffusionPipelineを読み込むようにしてください。これは、diffusersに重みがfloat16精度であることを期待させることで行えます。

import torch

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
pipe.enable_attention_slicing()

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  

image.save("astronaut_rides_horse.png")

ノイズスケジューラーを交換するには、from_pretrainedに渡します。

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "CompVis/stable-diffusion-v1-4"

# ここではEulerスケジューラーを使用
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  

image.save("astronaut_rides_horse.png")

高度な使用法

TPUやGPUでより高速な推論を行うために、StableDiffusionでJAX/Flaxを利用することができます。デフォルトのPNDMSchedulerでパイプラインを実行するには：

import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard

from diffusers import FlaxStableDiffusionPipeline

pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", revision="flax", dtype=jax.numpy.bfloat16
)

prompt = "a photo of an astronaut riding a horse on mars"

prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50

num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)

# 入力と乱数生成器を分割
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)

images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))

注意： TPUメモリが制限されている場合は、上記のようにデフォルトのfloat32精度ではなく、bfloat16精度でFlaxStableDiffusionPipelineを読み込むようにしてください。これは、diffusersに「bf16」ブランチから重みを読み込むように指示することで行えます。

import jax
import numpy as np
from flax.jax_utils import replicate
from flax.training.common_utils import shard

from diffusers import FlaxStableDiffusionPipeline

pipeline, params = FlaxStableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", revision="bf16", dtype=jax.numpy.bfloat16
)

prompt = "a photo of an astronaut riding a horse on mars"

prng_seed = jax.random.PRNGKey(0)
num_inference_steps = 50

num_samples = jax.device_count()
prompt = num_samples * [prompt]
prompt_ids = pipeline.prepare_inputs(prompt)

# 入力と乱数生成器を分割
params = replicate(params)
prng_seed = jax.random.split(prng_seed, num_samples)
prompt_ids = shard(prompt_ids)

images = pipeline(prompt_ids, params, prng_seed, num_inference_steps, jit=True).images
images = pipeline.numpy_to_pil(np.asarray(images.reshape((num_samples,) + images.shape[-3:])))

✨ 主な機能

直接利用

このモデルは研究目的のみを想定しています。考えられる研究分野やタスクには以下が含まれます。

有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限とバイアスの調査と理解。
アートワークの生成とデザインやその他の芸術的プロセスでの使用。
教育または創造的ツールでのアプリケーション。
生成モデルに関する研究。

除外される利用については以下で説明します。

誤用、悪意のある使用、および想定外の使用

注意：このセクションは、DALLE - MINIモデルカードから引用されていますが、Stable Diffusion v1にも同様に適用されます。

このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が不快、苦痛、または不快感を感じると予想される画像の生成、または歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。

想定外の使用

このモデルは、人や出来事の事実的または真実の表現を生成するように訓練されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

誤用と悪意のある使用

このモデルを、個人に残酷なコンテンツを生成するために使用することは、このモデルの誤用です。これには以下が含まれますが、これらに限定されません。

人やその環境、文化、宗教などの侮辱的、非人間的、またはその他の有害な表現の生成。
差別的なコンテンツまたは有害なステレオタイプを意図的に宣伝または拡散すること。
本人の同意なしで個人をなりすますこと。
見る人の同意なしの性的コンテンツ。
誤情報とディスインフォメーション。
重大な暴力やグロテスクな表現。
著作権またはライセンスされた素材をその使用条件に違反して共有すること。
著作権またはライセンスされた素材をその使用条件に違反して改変したコンテンツを共有すること。

📚 ドキュメント

制限事項

モデルは完全な写真的リアリズムを達成しません。
モデルは読み取り可能なテキストをレンダリングできません。
モデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクではうまく機能しません。
顔や人物全体が適切に生成されない場合があります。
モデルは主に英語のキャプションで訓練されており、他の言語ではうまく機能しません。
モデルの自動符号化部分は損失があります。
モデルは、成人向けの素材を含む大規模データセットLAION - 5Bで訓練されており、追加の安全メカニズムと考慮なしでは製品での使用に適していません。
データセットの重複排除に追加の対策は取られていません。その結果、訓練データに重複している画像についてある程度の記憶が見られます。訓練データはhttps://rom1504.github.io/clip - retrieval/で検索でき、記憶された画像の検出に役立つ可能性があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion v1は、LAION - 2B(en)のサブセットで訓練されており、これは主に英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストと画像は、十分に考慮されていない可能性があります。これは、白人と西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、モデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して著しく劣ります。

セーフティモジュール

このモデルの意図された使用方法は、Diffusersのセーフティチェッカーとともに使用することです。このチェッカーは、モデルの出力を既知のハードコードされたNSFW概念と比較することで機能します。これらの概念は、このフィルターの逆エンジニアリングの可能性を減らすために意図的に隠されています。具体的には、チェッカーは、画像生成後のCLIPTextModelの埋め込み空間で有害な概念のクラス確率を比較します。これらの概念は、生成された画像とともにモデルに渡され、各NSFW概念の手動で設計された重みと比較されます。

🔧 技術詳細

訓練データ

モデル開発者は、以下のデータセットをモデルの訓練に使用しました。

LAION - 2B (en) およびそのサブセット（次のセクションを参照）

訓練手順

Stable Diffusion v1 - 4は、オートエンコーダーとオートエンコーダーの潜在空間で訓練される拡散モデルを組み合わせた潜在拡散モデルです。訓練中は、

画像はエンコーダーを通じてエンコードされ、画像が潜在表現に変換されます。オートエンコーダーは相対的なダウンサンプリング係数8を使用し、形状H x W x 3の画像を形状H/f x W/f x 4の潜在表現にマッピングします。
テキストプロンプトはViT - L/14テキストエンコーダーを通じてエンコードされます。
テキストエンコーダーの非プール出力は、クロスアテンションを介して潜在拡散モデルのUNetバックボーンに供給されます。
損失は、潜在表現に追加されたノイズとUNetによる予測との間の再構成目的です。

現在、以下のように訓練された4つのチェックポイントを提供しています。

stable - diffusion - v1 - 1：解像度256x256で237,000ステップ、laion2B - enで訓練。解像度512x512で194,000ステップ、laion - high - resolution（LAION - 5Bから解像度>= 1024x1024の170Mの例）で訓練。
stable - diffusion - v1 - 2：stable - diffusion - v1 - 1から再開。解像度512x512で515,000ステップ、「laion - improved - aesthetics」（laion2B - enのサブセットで、元のサイズ>= 512x512、推定美学スコア> 5.0、推定ウォーターマーク確率< 0.5の画像にフィルタリングされています。ウォーターマークの推定はLAION - 5Bのメタデータから、美学スコアは改良された美学推定器を使用して推定されています）で訓練。
stable - diffusion - v1 - 3：stable - diffusion - v1 - 2から再開。解像度512x512で195,000ステップ、「laion - improved - aesthetics」で訓練し、テキスト条件付けの10%をドロップして、分類器なしガイダンスサンプリングを改善しました。
stable - diffusion - v1 - 4：stable - diffusion - v1 - 2から再開。解像度512x512で225,000ステップ、「laion - aesthetic」で訓練。

📄 ライセンス

このモデルは、すべての人に公開アクセス可能で、CreativeML OpenRAIL - Mライセンスによって権利と使用方法がさらに規定されています。CreativeML OpenRAILライセンスには以下が規定されています。

モデルを使用して、違法または有害な出力やコンテンツを意図的に生成または共有してはなりません。
作成者は、生成した出力に対して権利を主張せず、自由に使用できますが、ライセンスに定められた規定に違反しないように責任を負います。
重みを再配布し、モデルを商用および/またはサービスとして使用することができます。その場合は、ライセンスと同じ使用制限を含め、すべてのユーザーにCreativeML OpenRAIL - Mのコピーを共有する必要があります（ライセンス全体を注意深く読んでください）。完全なライセンスについては、こちらをご覧ください。

📦 モデル詳細

属性	详情
開発者	Robin Rombach, Patrick Esser
モデルタイプ	拡散ベースのテキストから画像への生成モデル
言語	英語
ライセンス	CreativeML OpenRAIL Mライセンスは、Open RAIL Mライセンスであり、BigScienceとRAIL Initiativeが共同で責任あるAIライセンスの分野で行っている作業を参考にしています。また、このライセンスが基づいているBLOOM Open RAILライセンスに関する記事も参照してください。
モデル説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。Latent Diffusion Modelであり、Imagen論文で提案されているように、固定された事前学習済みのテキストエンコーダー（CLIP ViT - L/14）を使用しています。
詳細情報のリソース	GitHubリポジトリ、論文
引用	@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High - Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684 - 10695} }