🚀 SD-XL 1.0-refinerモデルカード
このモデルはテキストプロンプトに基づいて画像を生成および修正することができ、潜在拡散モデルを利用しています。
🚀 クイックスタート
このセクションでは、SD-XL 1.0-refinerモデルの基本的な使い方を説明します。まず、必要なライブラリをインストールし、モデルを使用して画像を生成するコード例を紹介します。
✨ 主な機能
- 画像生成と修正:テキストプロンプトに基づいて画像を生成し、既存の画像を修正することができます。
- 二段階パイプライン:ベースモデルとリファイナーモデルを組み合わせた二段階パイプラインをサポートしています。
- 高速推論:torch.compileを使用することで、推論速度を20-30%向上させることができます。
📦 インストール
必要なライブラリをインストールするには、以下のコマンドを実行します。
pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors
💻 使用例
基本的な使用法
import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image
pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"
init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images
高度な使用法
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)
📚 ドキュメント
モデルの説明

SDXLは、潜在拡散のためのエキスパートのアンサンブルパイプラインで構成されています。最初のステップでは、ベースモデル(https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 で入手可能)を使用して(ノイズのある)潜在変数を生成し、次に最終的なノイズ除去ステップに特化したリファイナーモデルでさらに処理します。ベースモデルはスタンドアロンモジュールとして使用することもできます。
あるいは、以下のような二段階パイプラインを使用することもできます。まず、ベースモデルを使用して目的の出力サイズの潜在変数を生成します。次のステップでは、特殊な高解像度モデルを使用し、SDEdit(https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる)と呼ばれる手法を、同じプロンプトを使用して最初のステップで生成された潜在変数に適用します。この手法は、最初の手法よりも少し遅くなります。
ソースコードはhttps://github.com/Stability-AI/generative-models で入手可能です。
モデルの詳細情報
モデルのソース
研究目的では、最も人気のある拡散フレームワーク(トレーニングと推論の両方)を実装し、蒸留などの新機能が随時追加される generative-models
GitHubリポジトリ(https://github.com/Stability-AI/generative-models)をお勧めします。
Clipdrop は、無料のSDXL推論を提供しています。
- リポジトリ:https://github.com/Stability-AI/generative-models
- デモ:https://clipdrop.co/stable-diffusion
評価
上のグラフは、SDXL(リファインありとなし)とSDXL 0.9、Stable Diffusion 1.5および2.1に対するユーザーの好みを評価しています。SDXLベースモデルは以前のバリアントよりも大幅に優れており、リファイナーモジュールを組み合わせたモデルは全体的に最良のパフォーマンスを達成しています。
🔧 技術詳細
制限事項
- モデルは完全な写真的リアリズムを達成しません。
- モデルは読み取り可能なテキストをレンダリングすることができません。
- モデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
- 顔や人物全体が適切に生成されない場合があります。
- モデルのオートエンコーダー部分は損失があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルは CreativeML Open RAIL++-M License の下で提供されています。