lcm-sdxlオープンソースAIモデル - 高速画像推論、2～8ステップで画像生成を完了

ホーム

Lcm Sdxl

latent-consistencyによって開発

Stable Diffusion XLベースの潜在一貫性モデルで、推論ステップを2-8ステップに削減可能

画像生成 #超高速テキスト画像生成 #少ステップ推論 #SDXL最適化

ダウンロード数 882

リリース時間 : 11/7/2023

モデル概要

これはstable-diffusion-xl-base-1.0をLCM蒸留したバージョンで、画像生成に必要な推論ステップを大幅に削減しながら高品質な出力を維持します。

モデル特徴

高速推論

LCM蒸留技術により、従来のSDXLの25-50ステップからわずか2-8ステップに推論ステップを削減

高品質出力

極めて少ない推論ステップでも、オリジナルSDXLと同等の画像品質を維持

多機能サポート

テキスト画像生成、画像変換、画像修復、ControlNet制御、T2Iアダプターなど多様な機能をサポート

モデル能力

テキストから画像生成

画像変換

画像修復

制御可能な画像生成

使用事例

クリエイティブデザイン

コンセプトアート制作

高品質なコンセプトアート画像を迅速に生成

4ステップ以内で使用可能な作品を生成

ビジネスアプリケーション

広告素材生成

広告クリエイティブのビジュアルコンテンツを迅速に反復生成

クリエイティブ制作時間を大幅に短縮

🚀 潜在整合モデル (LCM): SDXL

潜在整合モデル (LCM) は、Simian Luo、Yiqin Tan らによる Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference で提案されました。また、Simian Luo、Suraj Patil、Daniel Gu が同じアプローチを成功させ、SDXL 用の LCM を作成しました。

このチェックポイントは、stable-diffusion-xl-base-1.0 の LCM 蒸留バージョンで、推論ステップ数をわずか 2 - 8 ステップに減らすことができます。

🚀 クイックスタート

LCM SDXL は、🤗 Hugging Face Diffusers ライブラリのバージョン v0.23.0 以降でサポートされています。モデルを実行するには、まず Diffusers ライブラリの最新バージョンと、peft、accelerate、transformers をインストールします。

pip install --upgrade pip
pip install --upgrade diffusers transformers accelerate peft

✨ 主な機能

推論ステップ数を大幅に削減できる（2 - 8 ステップ）。
テキストから画像、画像から画像、インペインティング、ControlNet、T2I Adapter などの機能に対応。

📦 インストール

上記のクイックスタートで示したコマンドを実行することで、必要なライブラリをインストールできます。

pip install --upgrade pip
pip install --upgrade diffusers transformers accelerate peft

💻 使用例

基本的な使用法

テキストから画像

モデルは、ベースパイプライン stabilityai/stable-diffusion-xl-base-1.0 でロードできます。次に、スケジューラを LCMScheduler に変更し、推論ステップ数を 2 から 8 ステップに減らすことができます。guidance_scale を無効にするか、1.0 から 2.0 の値を使用するようにしてください。

from diffusers import UNet2DConditionModel, DiffusionPipeline, LCMScheduler
import torch

unet = UNet2DConditionModel.from_pretrained("latent-consistency/lcm-sdxl", torch_dtype=torch.float16, variant="fp16")
pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", unet=unet, torch_dtype=torch.float16, variant="fp16")

pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
pipe.to("cuda")

prompt = "a close-up picture of an old man standing in the rain"

image = pipe(prompt, num_inference_steps=4, guidance_scale=8.0).images[0]