SDXL - Baseオープンソース画像生成モデル - 無料で効率的にテキストから美しい画像を簡単に描画

ホーム

Sdxl Base

Zedgeによって開発

Stability AIが開発したテキストから画像を生成する拡散モデルで、二重テキストエンコーダーと潜在拡散技術を採用し、単独使用または最適化モジュールと組み合わせて効果を向上させることが可能

画像生成 #二段階テキストから画像生成 #専門家統合拡散 #アート創作最適化

ダウンロード数 6,735

リリース時間 : 4/25/2025

モデル概要

潜在拡散アーキテクチャに基づく先進的なテキストから画像生成モデルで、専門家統合プロセスにより高品質な画像生成を実現し、二段階処理による詳細最適化をサポート

モデル特徴

専門家統合プロセス

最初の段階でベースモデルが潜在特徴を生成し、第二段階で専用最適化モデルが精細化処理を行う

二重テキストエンコーダー

OpenCLIPとCLIPテキストエンコーダーを同時に統合し、プロンプト理解能力を向上

高い互換性

単独使用または最適化ツールと組み合わせてSDEdit技術による強化が可能

パフォーマンス最適化

torch.compileによる高速化やCPUオフロードなどの推論最適化ソリューションをサポート

モデル能力

テキストから画像生成

画像詳細最適化

アートスタイル創作

コンセプト可視化

使用事例

クリエイティブデザイン

デジタルアート創作

テキスト記述に基づいてオリジナルアート作品を生成

様々なスタイルの絵画/イラスト作品を生成可能

コンセプトデザイン

製品/シーンのコンセプトを迅速に可視化

デザインプロセスの初期段階を加速

教育研究

生成モデル研究

拡散モデルアルゴリズム改良実験に使用

セキュリティ保護研究

生成コンテンツの安全境界を分析

🚀 SD-XL 1.0-baseモデルカード

row01 このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。潜在拡散モデルを利用し、2つの事前学習済みのテキストエンコーダを使用しています。

🚀 クイックスタート

必要なライブラリのインストール

diffusersをバージョン0.19.0以上にアップグレードし、transformers、safetensors、accelerate、およびinvisible watermarkをインストールします。

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

ベースモデルの使用例

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, use_safetensors=True, variant="fp16")
pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"

images = pipe(prompt=prompt).images[0]

ベース + リファイナーパイプラインの使用例

from diffusers import DiffusionPipeline
import torch

# load both base & refiner
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
base.to("cuda")
refiner = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0",
    text_encoder_2=base.text_encoder_2,
    vae=base.vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16",
)
refiner.to("cuda")

# Define how many steps and what % of steps to be run on each experts (80/20) here
n_steps = 40
high_noise_frac = 0.8

prompt = "A majestic lion jumping from a big stone at night"

# run both experts
image = base(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_end=high_noise_frac,
    output_type="latent",
).images
image = refiner(
    prompt=prompt,
    num_inference_steps=n_steps,
    denoising_start=high_noise_frac,
    image=image,
).images[0]

torch >= 2.0の場合の高速化

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU VRAMが限られている場合

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

✨ 主な機能

モデル構成

pipeline SDXL は、潜在拡散のためのエキスパートアンサンブルパイプラインで構成されています。最初に、ベースモデルを使用して（ノイズのある）潜在変数を生成し、それをさらにリファインモデル（https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0/ で入手可能）で最終的なノイズ除去ステップを行います。ベースモデルは単独でも使用できます。

または、以下のような2段階のパイプラインを使用することもできます。まず、ベースモデルを使用して目的の出力サイズの潜在変数を生成します。次に、特殊な高解像度モデルを使用し、SDEdit（https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる）という手法を最初のステップで生成された潜在変数に適用します。この手法は、最初の方法よりも少し遅く、より多くの関数評価が必要です。

ソースコードは、https://github.com/Stability-AI/generative-models で入手できます。

モデルの詳細

属性	详情
開発元	Stability AI
モデルタイプ	拡散ベースのテキストから画像への生成モデル
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	これは、テキストプロンプトに基づいて画像を生成および変更するために使用できるモデルです。潜在拡散モデルであり、2つの固定された事前学習済みのテキストエンコーダ (OpenCLIP-ViT/G と CLIP-ViT/L) を使用しています。
詳細情報のリソース	GitHubリポジトリと arXivのSDXLレポートを確認してください。

モデルのソース

研究目的では、最も人気のある拡散フレームワーク（トレーニングと推論の両方）を実装し、蒸留などの新機能が随時追加される generative-models のGithubリポジトリ（https://github.com/Stability-AI/generative-models）をお勧めします。 Clipdrop は、無料のSDXL推論を提供しています。

リポジトリ: https://github.com/Stability-AI/generative-models
デモ: https://clipdrop.co/stable-diffusion

評価

comparison 上のグラフは、SDXL（リファインありとなし）に対するユーザーの好みをSDXL 0.9、Stable Diffusion 1.5、および2.1と比較して評価しています。SDXLベースモデルは、以前のバリアントよりも大幅に優れており、リファインモジュールと組み合わせたモデルは全体的に最良のパフォーマンスを達成します。

Optimumの利用

Optimum は、OpenVINO と ONNX Runtime の両方と互換性のあるStable Diffusionパイプラインを提供します。

OpenVINO

OptimumをOpenVINO用の依存関係とともにインストールします。

pip install optimum[openvino]

OpenVINOモデルをロードし、OpenVINO Runtimeで推論を実行するには、StableDiffusionXLPipeline をOptimumの OVStableDiffusionXLPipeline に置き換えます。PyTorchモデルをロードしてオンザフライでOpenVINO形式に変換する場合は、export=True を設定できます。

- from diffusers import StableDiffusionXLPipeline
+ from optimum.intel import OVStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = OVStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

詳細な例（静的リシェイピングやモデルコンパイルなど）は、Optimumのドキュメントを参照してください。

ONNX

OptimumをONNX Runtime推論用の依存関係とともにインストールします。

pip install optimum[onnxruntime]

ONNXモデルをロードし、ONNX Runtimeで推論を実行するには、StableDiffusionXLPipeline をOptimumの ORTStableDiffusionXLPipeline に置き換えます。PyTorchモデルをロードしてオンザフライでONNX形式に変換する場合は、export=True を設定できます。

- from diffusers import StableDiffusionXLPipeline
+ from optimum.onnxruntime import ORTStableDiffusionXLPipeline

model_id = "stabilityai/stable-diffusion-xl-base-1.0"
- pipeline = StableDiffusionXLPipeline.from_pretrained(model_id)
+ pipeline = ORTStableDiffusionXLPipeline.from_pretrained(model_id)
prompt = "A majestic lion jumping from a big stone at night"
image = pipeline(prompt).images[0]

詳細な例は、Optimumのドキュメントを参照してください。