🚀 ⚡ フラッシュ拡散: FlashSD3 ⚡
Flash Diffusionは、Jasper ResearchのClément Chadebec、Onur Tasar、Eyal Benaroche、およびBenjamin Aubinによる論文 Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation で提案された拡散蒸留手法です。このモデルは、SD3 モデルの 9040万 パラメータのLoRA蒸留バージョンで、4ステップ で1024x1024の画像を生成することができます。
ライブデモ と公式 Githubリポジトリ をご覧ください。
🚀 クイックスタート
このモデルは、diffusers
ライブラリの StableDiffusion3Pipeline
を直接使用して利用することができます。必要なサンプリングステップ数を 4ステップ に減らすことができます。
⚠️ 重要提示
まず、以下のコマンドを実行して特定バージョンの diffusers
をインストールする必要があります。
pip install git+https://github.com/initml/diffusers.git@clement/feature/flash_sd3
その後、以下のコードを実行して画像を生成することができます。
基本的な使用法
import torch
from diffusers import StableDiffusion3Pipeline, SD3Transformer2DModel, FlashFlowMatchEulerDiscreteScheduler
from peft import PeftModel
transformer = SD3Transformer2DModel.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
subfolder="transformer",
torch_dtype=torch.float16,
)
transformer = PeftModel.from_pretrained(transformer, "jasperai/flash-sd3")
pipe = StableDiffusion3Pipeline.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
transformer=transformer,
torch_dtype=torch.float16,
text_encoder_3=None,
tokenizer_3=None
)
pipe.scheduler = FlashFlowMatchEulerDiscreteScheduler.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
subfolder="scheduler",
)
pipe.to("cuda")
prompt = "A raccoon trapped inside a glass jar full of colorful candies, the background is steamy with vivid colors."
image = pipe(prompt, num_inference_steps=4, guidance_scale=0).images[0]
🔧 技術詳細
このモデルは、2台のH100 GPUで約50時間学習されました。
💡 使用建议
モデルは、テキストを含む画像のデータセットで蒸留すると、テキストに対してはるかに良い性能を発揮する可能性があります。ぜひ自分で試してみてください。
📚 詳細ドキュメント
もしこの研究が役に立った場合や、あなたの研究で使用した場合は、以下のように引用していただけると幸いです。
@misc{chadebec2024flash,
title={Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation},
author={Clement Chadebec and Onur Tasar and Eyal Benaroche and Benjamin Aubin},
year={2024},
eprint={2406.02347},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
📄 ライセンス
このモデルは、Creative Commons BY - NCライセンスの下で公開されています。