🚀 SDXL-Turboモデルカード
SDXL-Turboは、テキストプロンプトから写真のようにリアルな画像を1回のネットワーク評価で合成できる高速なテキストから画像への生成モデルです。
リアルタイムデモはこちらで利用できます: http://clipdrop.co/stable-diffusion-turbo
なお、商用利用については、https://stability.ai/license をご参照ください。
🚀 クイックスタート
SDXL-Turboは、リアルタイム合成用に学習されたSDXL 1.0の蒸留バージョンです。研究目的では、最も人気のある拡散フレームワーク(学習と推論の両方)を実装したgenerative-models
のGitHubリポジトリ (https://github.com/Stability-AI/generative-models) をおすすめします。
✨ 主な機能
- テキストプロンプトから写真のようにリアルな画像を1回のネットワーク評価で合成できます。
- 新しい学習方法であるAdversarial Diffusion Distillation (ADD) をベースにしており、高画質で1から4ステップで大規模な基礎画像拡散モデルをサンプリングできます。
📦 インストール
pip install diffusers transformers accelerate --upgrade
💻 使用例
基本的な使用法
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
高度な使用法
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 ドキュメント
モデルの詳細
SDXL-Turboは、リアルタイム合成用に学習されたSDXL 1.0の蒸留バージョンです。このモデルは、新しい学習方法であるAdversarial Diffusion Distillation (ADD) をベースにしており、高画質で1から4ステップで大規模な基礎画像拡散モデルをサンプリングできます。
- 開発者: Stability AI
- 資金提供元: Stability AI
- モデルタイプ: テキストから画像への生成モデル
- ファインチューニング元のモデル: SDXL 1.0 Base
モデルのソース
研究目的では、最も人気のある拡散フレームワーク(学習と推論の両方)を実装したgenerative-models
のGitHubリポジトリ (https://github.com/Stability-AI/generative-models) をおすすめします。
- リポジトリ: https://github.com/Stability-AI/generative-models
- 論文: https://stability.ai/research/adversarial-diffusion-distillation
- デモ: http://clipdrop.co/stable-diffusion-turbo
評価
上記のグラフは、他の1ステップおよび多ステップモデルに対するSDXL-Turboのユーザーの好みを評価しています。1ステップで評価されたSDXL-Turboは、4ステップ(またはそれ以下)で評価されたLCM-XLよりも、画像品質とプロンプトの追従性の点で人間の投票者に好まれています。また、SDXL-Turboを4ステップで使用すると、さらに性能が向上することがわかります。ユーザー調査の詳細については、研究論文を参照してください。
使用方法
直接使用
このモデルは、非商用および商用の両方の利用を目的としています。非商用または研究目的では、このライセンスの下でこのモデルを使用できます。考えられる研究分野やタスクには以下のようなものがあります。
- 生成モデルの研究
- 生成モデルのリアルタイムアプリケーションの研究
- リアルタイム生成モデルの影響の研究
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
- 生成モデルの制限やバイアスの調査と理解
- アートワークの生成およびデザインやその他の芸術的プロセスでの使用
- 教育または創造的なツールでのアプリケーション
商用利用については、https://stability.ai/membership をご参照ください。
範囲外の使用
このモデルは、人や出来事の事実的または真実の表現として学習されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力の範囲外です。モデルは、Stability AIの利用規約に違反するような方法で使用してはいけません。
制限とバイアス
制限
- 生成される画像は固定解像度(512x512ピクセル)であり、モデルは完全な写真のようなリアリズムを実現していません。
- モデルは読み取り可能なテキストをレンダリングできません。
- 顔や人物は一般的に適切に生成されない場合があります。
- モデルの自動符号化部分は損失があります。
推奨事項
このモデルは、非商用および商用の両方の利用を目的としています。
モデルの使い始め方
https://github.com/Stability-AI/generative-models をご確認ください。
📄 ライセンス
このモデルは、sai-nc-community ライセンスの下で提供されています。