🚀 SD-Turboモデルカード
SD-Turboは、高速なテキストから画像への生成モデルです。1回のネットワーク評価でテキストプロンプトから写実的な画像を合成できます。このモデルは研究用に公開されており、小型の蒸留テキスト画像生成モデルの研究に役立ちます。より高品質でプロンプト理解能力の高いモデルが必要な場合は、SDXL-Turboをおすすめします。
商用利用については、https://stability.ai/license を参照してください。
🚀 クイックスタート
モデルの使用を開始するには、https://github.com/Stability-AI/generative-models をチェックしてください。
✨ 主な機能
SD-Turboは、Stable Diffusion 2.1 をベースに、リアルタイム合成用に学習された蒸留バージョンのモデルです。独自の学習方法であるAdversarial Diffusion Distillation (ADD) を使用しており、1から4ステップで高品質の画像をサンプリングできます。
📦 インストール
Diffusersを使用する場合、以下のコマンドで必要なライブラリをインストールできます。
pip install diffusers transformers accelerate --upgrade
💻 使用例
基本的な使用法
テキストから画像への生成
SD-Turboは guidance_scale
や negative_prompt
を使用しません。guidance_scale=0.0
で無効にします。好ましくは、モデルは512x512サイズの画像を生成しますが、より大きな画像サイズもサポートされています。1ステップ で高品質の画像を生成できます。
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
画像から画像への生成
SD-Turboを画像から画像への生成に使用する場合、num_inference_steps
* strength
が1以上であることを確認してください。画像から画像へのパイプラインは int(num_inference_steps * strength)
ステップで実行されます。
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
📚 ドキュメント
モデルの詳細
モデルの説明
SD-Turboは、Stable Diffusion 2.1 の蒸留バージョンで、リアルタイム合成用に学習されています。独自の学習方法であるAdversarial Diffusion Distillation (ADD) を使用しており、1から4ステップで高品質の画像をサンプリングできます。このアプローチでは、大規模な既存の画像拡散モデルを教師信号として利用し、敵対的損失を組み合わせることで、1または2ステップの低ステップレジームでも高い画像忠実度を確保します。
属性 |
详情 |
開発者 |
Stability AI |
資金提供元 |
Stability AI |
モデルタイプ |
生成的テキストから画像へのモデル |
ファインチューニング元のモデル |
Stable Diffusion 2.1 |
モデルのソース
研究目的では、generative-models
のGitHubリポジトリ (https://github.com/Stability-AI/generative-models) をおすすめします。このリポジトリには、最も人気のある拡散フレームワーク(学習と推論の両方)が実装されています。
属性 |
详情 |
リポジトリ |
https://github.com/Stability-AI/generative-models |
論文 |
https://stability.ai/research/adversarial-diffusion-distillation |
デモ (SDXL-Turbo用) |
http://clipdrop.co/stable-diffusion-turbo |
評価
上のグラフは、他の単ステップおよび多ステップモデルに対するSD-Turboのユーザー嗜好を評価しています。単ステップで評価されたSD-Turboは、画像品質とプロンプトの追従性に関して、LCM-Lora XLおよびLCM-Lora 1.5よりも人間の投票者に好まれています。
⚠️ 重要提示
より高い品質を求める場合は、より大きなバージョンの SDXL-Turbo をおすすめします。ユーザー調査の詳細については、研究論文 を参照してください。
使用方法
直接使用
このモデルは、非商用および商用の両方の用途を想定しています。可能な研究分野やタスクには以下のものが含まれます。
- 生成モデルの研究
- 生成モデルのリアルタイムアプリケーションの研究
- リアルタイム生成モデルの影響の研究
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ
- 生成モデルの制限とバイアスの調査と理解
- アートワークの生成とデザインやその他のアートプロセスでの使用
- 教育または創造的なツールでのアプリケーション
商用利用については、https://stability.ai/membership を参照してください。除外される使用法については以下で説明します。
範囲外の使用
このモデルは、人物やイベントの事実的または真実の表現を学習するように設計されていないため、そのようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。モデルは、Stability AIの Acceptable Use Policy に違反するような方法で使用してはいけません。
制限とバイアス
制限
- 品質とプロンプトの一致度は、SDXL-Turbo よりも低い。
- 生成される画像は固定解像度 (512x512ピクセル) で、完全な写実性を達成していない。
- モデルは読み取り可能なテキストをレンダリングできない。
- 顔や人物全体が適切に生成されない場合がある。
- モデルの自動符号化部分は損失がある。
推奨事項
このモデルは、非商用および商用の両方の用途を想定しています。