Stable Diffusion XL Base 1.0オープンソース画像生成モデル - 高解像度画像の作成を無料でサポート

ホーム

Stable Diffusion Xl Base 1.0

stabilityaiによって開発

SDXL 1.0は拡散ベースのテキストから画像を生成するモデルで、専門家統合の潜在拡散プロセスを採用し、高解像度画像生成をサポート

画像生成 #デュアルテキストエンコーダー #専門家統合拡散 #高解像度最適化

ダウンロード数 2.4M

リリース時間 : 7/25/2023

モデル概要

このモデルはテキストプロンプトに基づいて画像を生成・編集でき、2つの固定事前学習テキストエンコーダーを採用したStability AI開発の先進的なテキストから画像生成モデル

モデル特徴

専門家統合アーキテクチャ

ベースモデルと最適化モデルが協調して動作する2段階プロセスを採用し、画像品質を大幅に向上

デュアルテキストエンコーダー

OpenCLIP-ViT/GとCLIP-ViT/Lの2種類の事前学習テキストエンコーダーを組み合わせ、テキスト理解能力を強化

高解像度サポート

最適化モジュールにより高解像度画像生成をサポート、最大1024x1024ピクセルまで対応

パフォーマンス最適化

torch.compileによる高速化とCPUオフロード技術をサポートし、推論効率を向上

モデル能力

テキストから画像生成

画像編集

高解像度画像生成

アートスタイル創作

使用事例

クリエイティブデザイン

コンセプトアート創作

ゲーム/映像業界向けに迅速にコンセプトアートを生成

様々なスタイルのコンセプトスケッチを生成可能

グラフィックデザイン

広告、ポスターなどのデザイン素材を生成

高品質なビジュアル要素を提供

教育研究

生成モデル研究

拡散モデル関連アルゴリズム研究に使用

強力なベースモデルを提供

AI教育デモ

テキストから画像生成技術を展示

生成AIの能力を直感的に展示

🚀 SD-XL 1.0-baseモデルカード

[SDXL 1.0-base]は、テキストプロンプトに基づいて画像を生成および変更することができる拡散ベースのテキスト-to-画像生成モデルです。潜在拡散のためのエキスパートアンサンブルパイプラインを使用しており、高品質な画像生成が可能です。

🚀 クイックスタート

このモデルを使用する前に、必要なライブラリをインストールしましょう。

まず、diffusersをバージョン0.19.0以上にアップグレードします。

pip install diffusers --upgrade

さらに、transformers、safetensors、accelerate、およびinvisible_watermarkをインストールします。

pip install invisible_watermark transformers accelerate safetensors

✨ 主な機能

画像生成: テキストプロンプトに基づいて高品質な画像を生成します。
二段階パイプライン: 基本モデルとリファイナーモデルを組み合わせた二段階パイプラインを使用して、さらに良質な画像を生成できます。
複数の推論方法: diffusersやOptimumを使用して、異なる推論方法でモデルを実行できます。

📦 インストール

diffusersを使用する場合

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

Optimumを使用する場合

OpenVINO用の依存関係をインストール

pip install optimum[openvino]

ONNX Runtime推論用の依存関係をインストール

pip install optimum[onnxruntime]

💻 使用例

基本的な使用法

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

高度な使用法

基本モデルとリファイナーモデルを組み合わせたパイプラインを使用する場合

from diffusers import DiffusionPipeline
import torch

# load both base & refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# run both experts
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

torch >= 2.0の場合、推論速度を向上させる

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU VRAMが制限されている場合、CPUオフロードを有効にする

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

📚 ドキュメント

モデルの詳細

SDXLは、潜在拡散のためのエキスパートアンサンブルパイプラインで構成されています。最初に、基本モデルを使用して（ノイズのある）潜在変数を生成し、それをさらにリファイナーモデル（https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/ で入手可能）で最終的なノイズ除去ステップを行います。基本モデルは、単独で使用することもできます。

または、以下のような二段階パイプラインを使用することもできます。まず、基本モデルを使用して目的の出力サイズの潜在変数を生成します。次に、特殊な高解像度モデルを使用し、SDEdit（https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる）という手法を最初のステップで生成された潜在変数に適用します。この手法は、最初の手法よりも少し遅いですが、より多くの関数評価が必要です。

ソースコードは、https://github.com/Stability-AI/generative-models で入手できます。

モデルの説明

属性	详情
開発者	Stability AI
モデルタイプ	拡散ベースのテキスト-to-画像生成モデル
ライセンス	CreativeML Open RAIL++-M License
モデル説明	テキストプロンプトに基づいて画像を生成および変更することができるモデルです。2つの固定された事前学習済みテキストエンコーダー（OpenCLIP-ViT/G と CLIP-ViT/L）を使用する潜在拡散モデルです。
詳細情報のリソース	GitHubリポジトリと arXivのSDXLレポートを参照してください。

モデルのソース

研究目的では、最も人気のある拡散フレームワーク（トレーニングと推論の両方）を実装し、蒸留などの新機能が徐々に追加されるgenerative-modelsのGitHubリポジトリ（https://github.com/Stability-AI/generative-models）をお勧めします。 Clipdrop は、無料のSDXL推論を提供しています。

リポジトリ: https://github.com/Stability-AI/generative-models
デモ: https://clipdrop.co/stable-diffusion

評価

comparison 上のグラフは、SDXL（リファイン有りおよび無し）とSDXL 0.9、Stable Diffusion 1.5、2.1に対するユーザーの好みを評価しています。SDXLの基本モデルは、以前のバリアントよりも大幅に優れており、リファイナーモジュールと組み合わせたモデルは、全体的に最良のパフォーマンスを達成しています。

Optimumの使用方法

OpenVINO

- from diffusers import StableDiffusionXLPipeline
+ from optimum.intel import OVStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = OVStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

ONNX

- from diffusers import StableDiffusionXLPipeline
+ from optimum.onnxruntime import ORTStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = ORTStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]