flash-sd3オープンソース画像生成モデル - ライトニング拡散、4ステップで1024x1024の高解像度画像を生成

ホーム

Flash Sd3

jasperaiによって開発

フラッシュ拡散（Flash Diffusion）はJasper Researchチームが提案した拡散蒸留手法で、4ステップで1024x1024解像度の画像を生成可能です。

画像生成 #4ステップで高速生成 #LoRA蒸留 #高解像度画像

ダウンロード数 126

リリース時間 : 6/17/2024

モデル概要

このモデルはSD3モデルのLoRA蒸留版で、高品質画像の高速生成に特化しており、効率的な画像生成が必要なシナリオに適しています。

モデル特徴

効率的な画像生成

4ステップで1024x1024解像度の画像を生成可能で、生成速度を大幅に向上させます。

LoRA蒸留

LoRA技術を用いてSD3モデルを蒸留し、高品質な生成能力を維持しながら計算リソースを削減します。

高品質出力

非常に少ない推論ステップでも、高品質な画像を生成できます。

モデル能力

テキストから画像生成

高速画像生成

高解像度画像生成

使用事例

クリエイティブデザイン

迅速なコンセプトデザイン

デザイナーが複数のデザインコンセプトを迅速に生成し、作業効率を向上させます。

4ステップで高品質なデザインスケッチを生成。

コンテンツ制作

ソーシャルメディア向けコンテンツ生成

注目を集めるソーシャルメディア画像コンテンツを迅速に生成します。

高品質な画像を効率的に生成でき、頻繁なコンテンツ更新ニーズに適しています。

🚀 ⚡ フラッシュ拡散: FlashSD3 ⚡

Flash Diffusionは、Jasper ResearchのClément Chadebec、Onur Tasar、Eyal Benaroche、およびBenjamin Aubinによる論文 Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation で提案された拡散蒸留手法です。このモデルは、SD3 モデルの 9040万 パラメータのLoRA蒸留バージョンで、4ステップ で1024x1024の画像を生成することができます。ライブデモと公式 Githubリポジトリをご覧ください。

🚀 クイックスタート

このモデルは、diffusers ライブラリの StableDiffusion3Pipeline を直接使用して利用することができます。必要なサンプリングステップ数を 4ステップ に減らすことができます。

⚠️ 重要提示

まず、以下のコマンドを実行して特定バージョンの diffusers をインストールする必要があります。

pip install git+https://github.com/initml/diffusers.git@clement/feature/flash_sd3

その後、以下のコードを実行して画像を生成することができます。

基本的な使用法

import torch
from diffusers import StableDiffusion3Pipeline, SD3Transformer2DModel, FlashFlowMatchEulerDiscreteScheduler
from peft import PeftModel

# Load LoRA
transformer = SD3Transformer2DModel.from_pretrained(
    "stabilityai/stable-diffusion-3-medium-diffusers",
    subfolder="transformer",
    torch_dtype=torch.float16,
)
transformer = PeftModel.from_pretrained(transformer, "jasperai/flash-sd3")


# Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3-medium-diffusers",
    transformer=transformer,
    torch_dtype=torch.float16,
    text_encoder_3=None,
    tokenizer_3=None
)

# Scheduler
pipe.scheduler = FlashFlowMatchEulerDiscreteScheduler.from_pretrained(
  "stabilityai/stable-diffusion-3-medium-diffusers",
  subfolder="scheduler",
)

pipe.to("cuda")

prompt = "A raccoon trapped inside a glass jar full of colorful candies, the background is steamy with vivid colors."

image = pipe(prompt, num_inference_steps=4, guidance_scale=0).images[0]

🔧 技術詳細

このモデルは、2台のH100 GPUで約50時間学習されました。

💡 使用建议

モデルは、テキストを含む画像のデータセットで蒸留すると、テキストに対してはるかに良い性能を発揮する可能性があります。ぜひ自分で試してみてください。

📚 詳細ドキュメント

もしこの研究が役に立った場合や、あなたの研究で使用した場合は、以下のように引用していただけると幸いです。

@misc{chadebec2024flash,
      title={Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation}, 
      author={Clement Chadebec and Onur Tasar and Eyal Benaroche and Benjamin Aubin},
      year={2024},
      eprint={2406.02347},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}