Stable Diffusion XL Refiner 1.0オープンソース画像生成モデル - SDXL基礎画像の品質を向上し、ノイズ除去を最適化

ホーム

Stable Diffusion Xl Refiner 1.0

stabilityaiによって開発

SD-XL 1.0最適化モデルはStability AIが開発した画像生成モデルで、SDXLベースモデルで生成された画像の品質向上を目的として設計されており、特に最終ノイズ除去ステップの処理に優れています。

画像生成 #二段階画像強調 #専門家集合拡散 #高解像度最適化

ダウンロード数 1.1M

リリース時間 : 7/26/2023

モデル概要

潜在拡散技術に基づく画像最適化モデルで、SDXLベースモデルと組み合わせて使用することで、生成画像の品質とディテール表現を向上させます。

モデル特徴

専門家集合アーキテクチャ

ベースモデルと最適化器が協調して動作するアーキテクチャを採用し、ベースモデルが初期生成を担当し、最適化器は最終ノイズ除去ステップに特化しています

高品質画像生成

前バージョンと比較して画像品質が大幅に向上し、ユーザー選好度テストで優れた結果を示しています

二段階処理能力

ベースモデルの出力を直接最適化するだけでなく、高解像度処理段階のSDEdit技術としても使用可能です

モデル能力

画像品質最適化

ディテール強調

高解像度画像処理

テキストプロンプトに基づく画像修正

使用事例

クリエイティブデザイン

アート創作支援

アーティストが迅速にクリエイティブなコンセプトアートを生成するのを支援

様々なスタイルの芸術作品を生成可能

デザインプロトタイプ生成

デザイナーに迅速なビジュアル化ソリューションを提供

デザインプロセスを加速

教育研究

生成モデル研究

拡散モデルの性能向上方法を研究するために使用

🚀 SD-XL 1.0-refinerモデルカード

このモデルはテキストプロンプトに基づいて画像を生成および修正することができ、潜在拡散モデルを利用しています。

🚀 クイックスタート

このセクションでは、SD-XL 1.0-refinerモデルの基本的な使い方を説明します。まず、必要なライブラリをインストールし、モデルを使用して画像を生成するコード例を紹介します。

✨ 主な機能

画像生成と修正：テキストプロンプトに基づいて画像を生成し、既存の画像を修正することができます。
二段階パイプライン：ベースモデルとリファイナーモデルを組み合わせた二段階パイプラインをサポートしています。
高速推論：torch.compileを使用することで、推論速度を20-30%向上させることができます。

📦 インストール

必要なライブラリをインストールするには、以下のコマンドを実行します。

pip install diffusers --upgrade
pip install invisible_watermark transformers accelerate safetensors

💻 使用例

基本的な使用法

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高度な使用法

# torch >= 2.0の場合、torch.compileを使用して推論速度を向上させることができます。
pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

📚 ドキュメント

モデルの説明

row01 pipeline

SDXLは、潜在拡散のためのエキスパートのアンサンブルパイプラインで構成されています。最初のステップでは、ベースモデル（https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 で入手可能）を使用して（ノイズのある）潜在変数を生成し、次に最終的なノイズ除去ステップに特化したリファイナーモデルでさらに処理します。ベースモデルはスタンドアロンモジュールとして使用することもできます。

あるいは、以下のような二段階パイプラインを使用することもできます。まず、ベースモデルを使用して目的の出力サイズの潜在変数を生成します。次のステップでは、特殊な高解像度モデルを使用し、SDEdit（https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる）と呼ばれる手法を、同じプロンプトを使用して最初のステップで生成された潜在変数に適用します。この手法は、最初の手法よりも少し遅くなります。

ソースコードはhttps://github.com/Stability-AI/generative-models で入手可能です。

モデルの詳細情報

属性	详情
モデルタイプ	拡散ベースのテキストから画像への生成モデル
開発者	Stability AI
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。2つの固定された事前学習済みのテキストエンコーダー（OpenCLIP-ViT/G と CLIP-ViT/L）を使用する潜在拡散モデルです。
詳細情報のリソース	GitHubリポジトリと arXivのSDXLレポートを参照してください。

モデルのソース

研究目的では、最も人気のある拡散フレームワーク（トレーニングと推論の両方）を実装し、蒸留などの新機能が随時追加される generative-models GitHubリポジトリ（https://github.com/Stability-AI/generative-models）をお勧めします。 Clipdrop は、無料のSDXL推論を提供しています。

リポジトリ：https://github.com/Stability-AI/generative-models
デモ：https://clipdrop.co/stable-diffusion

評価

comparison 上のグラフは、SDXL（リファインありとなし）とSDXL 0.9、Stable Diffusion 1.5および2.1に対するユーザーの好みを評価しています。SDXLベースモデルは以前のバリアントよりも大幅に優れており、リファイナーモジュールを組み合わせたモデルは全体的に最良のパフォーマンスを達成しています。