Stable Diffusion XL Refiner 1.0オープンソース画像リファイナーモデル - ベースモデルと組み合わせて高品質な画像を生成する

ホーム

Stable Diffusion Xl Refiner 1.0 GGUF

gpustackによって開発

SDXL 1.0-refinerはStability AIが開発した潜在拡散モデルで、画像の精製段階に焦点を当てており、ベースモデルと組み合わせて高品質な画像を生成できます。

画像生成 #画像の精密修正と強化 #2段階生成プロセス #専門家集合拡散

ダウンロード数 44.91k

リリース時間 : 11/8/2024

モデル概要

このモデルはSDXLプロセスの精製段階モデルで、ベースモデルが生成した潜在表現を最終的にノイズ除去処理し、画像品質を向上させます。テキストから画像、画像から画像への変換をサポートしています。

モデル特徴

専門家集合プロセス

ベースモデルと組み合わせて使用し、2段階プロセスでより高品質な画像を生成

高解像度最適化

最終ノイズ除去ステップに焦点を当て、特に高解像度画像生成に適している

SDEdit技術サポート

同じプロンプトを使用して既存の画像を最適化・改善することをサポート

マルチテキストエンコーダ

OpenCLIP-ViT/GとCLIP-ViT/Lの2つの事前学習済みテキストエンコーダを統合

モデル能力

テキストから画像生成

画像から画像変換

画像精製最適化

高解像度画像生成

使用事例

クリエイティブアート

デジタルアート創作

アーティストやデザイナーが迅速にクリエイティブなコンセプトや芸術作品を生成するために使用

様々なスタイルのデジタルアート作品を生成可能

コンセプトデザイン

製品、ゲーム、映画などのコンセプトデザイン段階で使用

デザインコンセプトを迅速に可視化

教育ツール

教育補助

教育コンテンツの視覚的補助資料を生成

教育コンテンツの視覚的表現力を強化

🚀 stable-diffusion-xl-refiner-1.0-GGUF

このモデルは、潜在拡散のためのエキスパートのアンサンブルパイプラインを持つSDXLベースのモデルで、最終的なノイズ除去ステップに特化したリファインモデルを備えています。

⚠️ 重要提示

このモデルは実験的なもので、gpustack/llama-box v0.0.75+ のみがサポートしています。

属性	详情
モデル作成者	Stability AI
オリジナルモデル	stable-diffusion-xl-refiner-1.0
GGUF量子化	stable-diffusion.cpp ac54e をベースに、llama-boxでパッチ適用
VAEソース	madebyollin/sdxl-vae-fp16-fix
ライセンス	CreativeML Open RAIL++-M License

量子化	OpenCLIP ViT-G/14量子化	VAE量子化
FP16	FP16	FP16
Q8_0	FP16	FP16
Q4_1	FP16	FP16
Q4_0	FP16	FP16

📚 ドキュメント

モデル

pipeline

SDXL は、潜在拡散のためのエキスパートのアンサンブルパイプラインで構成されています。最初のステップでは、ベースモデル（https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 で入手可能）を使用して（ノイズのある）潜在変数を生成し、それを最終的なノイズ除去ステップに特化したリファインモデルでさらに処理します。ベースモデルは、スタンドアロンモジュールとしても使用できます。

あるいは、以下のような2段階のパイプラインを使用することもできます。まず、ベースモデルを使用して目的の出力サイズの潜在変数を生成します。次のステップでは、特殊な高解像度モデルを使用し、同じプロンプトを使用して最初のステップで生成された潜在変数にSDEdit（https://arxiv.org/abs/2108.01073、「img2img」とも呼ばれる）と呼ばれる手法を適用します。この手法は、より多くの関数評価を必要とするため、最初の手法よりも少し遅くなります。

ソースコードは、https://github.com/Stability-AI/generative-models で入手可能です。

モデルのソース

研究目的では、最も人気のある拡散フレームワーク（トレーニングと推論の両方）を実装し、蒸留などの新機能が随時追加される generative-models のGitHubリポジトリ（https://github.com/Stability-AI/generative-models）をお勧めします。Clipdrop は、無料のSDXL推論を提供しています。

リポジトリ：https://github.com/Stability-AI/generative-models
デモ：https://clipdrop.co/stable-diffusion

評価

comparison

上のグラフは、SDXL（リファインありとなし）とSDXL 0.9、Stable Diffusion 1.5および2.1に対するユーザーの好みを評価しています。SDXLベースモデルは、以前のバリアントよりも大幅に優れた性能を発揮し、リファインモジュールと組み合わせたモデルは、全体的に最良の性能を達成しています。

💻 使用例

基本的な使用法

まず、diffusersを >= 0.18.0にアップグレードします。

pip install diffusers --upgrade

さらに、transformers、safetensors、accelerate および不可視ウォーターマークをインストールします。

pip install invisible_watermark transformers accelerate safetensors

次に、リファイナーを使用して画像を改善することができます。

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"

init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images

高度な使用法

torch >= 2.0 を使用する場合、torch.compileを使用することで推論速度を20 - 30％向上させることができます。パイプラインを実行する前に、torch compileでunetをラップします。

pipe.unet = torch.compile(pipe.unet, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合は、.to("cuda") の代わりに pipe.enable_model_cpu_offload を呼び出すことで、CPUオフロード を有効にすることができます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

より高度な使用例については、ドキュメントを参照してください。

📄 ライセンス

このモデルは、CreativeML Open RAIL++-M License の下で提供されています。

用途

直接的な使用

このモデルは、研究目的のみを対象としています。可能な研究分野やタスクには、以下が含まれます。

アートワークの生成とデザインやその他の芸術的なプロセスでの使用。
教育または創造的なツールでのアプリケーション。
生成モデルの研究。
有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
生成モデルの制限とバイアスの調査と理解。

以下に記載されている使用は、範囲外です。

範囲外の使用

このモデルは、人やイベントの事実的または真実の表現としてトレーニングされていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。

制限とバイアス

制限

モデルは完全な写真的リアリズムを達成しません。
モデルは読み取り可能なテキストをレンダリングできません。
モデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
顔や一般的な人物は、適切に生成されない場合があります。
モデルのオートエンコーディング部分は損失があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご