🚀 Stable Diffusion x2 latent upscaler モデルカード
このモデルカードは、[Katherine Crowson](https://github.com/crowsonkb/k - diffusion) が Stability AI と共同で開発した潜在拡散ベースのアップスケーラーに焦点を当てています。このモデルは、LAION - 2B データセットの高解像度サブセットでトレーニングされました。これは、Stable Diffusion モデルと同じ潜在空間で動作する拡散モデルで、完全解像度の画像にデコードされます。Stable Diffusion と併用するには、Stable Diffusion から生成された潜在空間の画像を取得し、標準の VAE でデコードする前にアップスケーラーに渡すことができます。または、任意の画像を取得し、潜在空間にエンコードし、アップスケーラーを使用してからデコードすることもできます。
注意:
このアップスケーリングモデルは、Stable Diffusion の潜在空間のノイズ除去された画像埋め込みをアップスケールできるため、Stable Diffusion 専用に設計されています。これにより、すべての中間状態を GPU 上に保持できるため、非常に高速なテキストから画像への変換 + アップスケーリングパイプラインが可能になります。詳細については、以下の例を参照してください。このモデルは、すべての [Stable Diffusion チェックポイント](https://huggingface.co/models?other=stable - diffusion) で動作します。
元の出力画像 |
2倍アップスケールされた出力画像 |
 |
 |
- üß® [
diffusers
](https://huggingface.co/stabilityai/sd - x2 - latent - upscaler#examples) で使用する
🚀 クイックスタート
このアップスケーラーモデルを使用するには、以下の手順に従ってください。
✨ 主な機能
- Stable Diffusion の潜在空間の画像を高速にアップスケールできます。
- すべての Stable Diffusion チェックポイントで動作します。
📦 インストール
必要なライブラリをインストールするには、以下のコマンドを実行します。
pip install git+https://github.com/huggingface/diffusers.git
pip install transformers accelerate scipy safetensors
💻 使用例
基本的な使用法
from diffusers import StableDiffusionLatentUpscalePipeline, StableDiffusionPipeline
import torch
pipeline = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16)
pipeline.to("cuda")
upscaler = StableDiffusionLatentUpscalePipeline.from_pretrained("stabilityai/sd-x2-latent-upscaler", torch_dtype=torch.float16)
upscaler.to("cuda")
prompt = "a photo of an astronaut high resolution, unreal engine, ultra realistic"
generator = torch.manual_seed(33)
low_res_latents = pipeline(prompt, generator=generator, output_type="latent").images
upscaled_image = upscaler(
prompt=prompt,
image=low_res_latents,
num_inference_steps=20,
guidance_scale=0,
generator=generator,
).images[0]
upscaled_image.save("astronaut_1024.png")
with torch.no_grad():
image = pipeline.decode_latents(low_res_latents)
image = pipeline.numpy_to_pil(image)[0]
image.save("astronaut_512.png")
結果:
512解像度の宇宙飛行士

1024解像度の宇宙飛行士

注意:
- 依存関係ではありませんが、メモリ効率の高いアテンション(より良いパフォーマンス)のために xformers をインストールすることを強くお勧めします。
- GPU の RAM が少ない場合は、
cuda
に送信した後に pipe.enable_attention_slicing()
を追加して、VRAM 使用量を減らすことができます(ただし、速度が低下します)。
📚 ドキュメント
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野とタスクは以下の通りです。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
- アートワークの生成とデザインやその他のアートプロセスでの使用。
- 教育または創造的ツールでのアプリケーション。
- 生成モデルの研究。
除外される使用法については以下で説明します。
誤用、悪意のある使用、および想定外の使用
注意: このセクションは、元々 [DALLE - MINI モデルカード](https://huggingface.co/dalle - mini/dalle - mini) から引用されたもので、Stable Diffusion v1 で使用されていましたが、Stable Diffusion v2 にも同様に適用されます。
このモデルは、人々に敵対的または疎外感を与える環境を作り出す画像を意図的に作成または拡散するために使用してはなりません。これには、人々が予想される不快感、苦痛、または不快感を感じる画像や、歴史的または現在のステレオタイプを広めるコンテンツの生成が含まれます。
想定外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するようにトレーニングされていないため、そのようなコンテンツを生成するためにこのモデルを使用することは、このモデルの能力範囲外です。
誤用と悪意のある使用
このモデルを使用して、個人に残酷なコンテンツを生成することは、このモデルの誤用です。これには、以下が含まれますが、これらに限定されません。
- 人やその環境、文化、宗教などの侮辱的、非人間的、またはその他有害な表現の生成。
- 差別的なコンテンツまたは有害なステレオタイプの意図的な宣伝または拡散。
- 本人の同意なしでの個人のなりすまし。
- 見る人の同意なしでの性的コンテンツ。
- 誤情報と偽情報。
- 重大な暴力とグロテスクな表現。
- 著作権またはライセンスされた素材の使用条件に違反した共有。
- 著作権またはライセンスされた素材の改変コンテンツの使用条件に違反した共有。
🔧 技術詳細
制限事項
- このモデルは完全な写真的リアリズムを達成しません。
- このモデルは読み取り可能なテキストをレンダリングできません。
- このモデルは、「青い球の上に赤い立方体」のような構成性を伴う難しいタスクではうまく機能しません。
- 顔や一般的な人物は適切に生成されない場合があります。
- このモデルは主に英語のキャプションでトレーニングされており、他の言語では同じように機能しません。
- このモデルの自動符号化部分は損失があります。
- このモデルは、大規模データセット [LAION - 5B](https://laion.ai/blog/laion - 5b/) のサブセットでトレーニングされており、これには成人向け、暴力的、および性的なコンテンツが含まれています。これを部分的に軽減するために、LAION の NFSW 検出器を使用してデータセットをフィルタリングしています(トレーニングセクションを参照)。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。Stable Diffusion vw は主に [LAION - 2B(en)](https://laion.ai/blog/laion - 5b/) のサブセットでトレーニングされており、これは英語の説明に限定された画像で構成されています。他の言語を使用するコミュニティや文化のテキストと画像は、十分に考慮されていない可能性があります。これは、白人と西洋文化がしばしばデフォルトとして設定されるため、モデルの全体的な出力に影響を与えます。さらに、このモデルが英語以外のプロンプトでコンテンツを生成する能力は、英語のプロンプトと比較して著しく劣ります。Stable Diffusion v2 は、入力やその意図に関係なく、閲覧者の裁量が必要な程度までバイアスを反映し、悪化させます。
📄 ライセンス
- ライセンス: [CreativeML Open RAIL++ - M License](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL)
属性 |
详情 |
モデルタイプ |
拡散ベースの潜在空間アップスケーラー |
開発者 |
Katherine Crowson |
言語 |
英語 |
ライセンス |
[CreativeML Open RAIL++ - M License](https://huggingface.co/stabilityai/stable - diffusion - 2/blob/main/LICENSE - MODEL) |