DMD2オープンソース画像合成モデル - 改良手法で高速かつ効率的な画像生成を実現

Home

DMD2

Developed by tianweiy

DMD2は拡散モデルに基づく高速画像合成技術で、改良された分布マッチング蒸留法により効率的な画像生成を実現します。

画像生成 #4ステップ高速画像生成 #1ステップ超高速合成 #拡散蒸留技術

Downloads 39.89k

Release Time : 5/23/2024

Model Overview

DMD2はStable Diffusion XLモデルを基にした改良版で、分布マッチング蒸留技術による高速画像合成に特化しています。このモデルは4ステップ、さらには1ステップの推論で高品質な画像を生成でき、生成効率を大幅に向上させます。

Model Features

高速画像合成

4ステップ、さらには1ステップの推論で高品質な画像を生成可能で、生成効率を大幅に向上

多様な推論モード

UNet直接生成、LoRA生成、T2Iアダプターなど複数の使用方式を提供

高品質出力

推論ステップ数を大幅に削減しても高い画像品質を維持

高い互換性

Stable Diffusion XLベースモデルや各種アダプターと組み合わせて使用可能

Model Capabilities

テキストから画像生成

高速画像合成

画像スタイル変換

条件付き画像生成

Use Cases

クリエイティブデザイン

コンセプトアート制作

様々なスタイルのコンセプトアート画像を高速生成

4ステップ以内で高品質なコンセプトアート生成

製品デザインプロトタイプ

製品デザインのためのビジュアルプロトタイプを迅速に生成

デザインコンセプトの効率的な反復

コンテンツ制作

ソーシャルメディアコンテンツ生成

ソーシャルメディア向けのビジュアルコンテンツを迅速に生成

高品質画像の迅速な生成

🚀 DMD2モデルカード

DMD2は、高速画像合成のための改良型分布マッチング蒸留手法を用いたモデルです。このモデルは、テキストから画像を生成するタスクに特化しており、Stable Diffusionをベースに開発されています。

image/jpeg

Improved Distribution Matching Distillation for Fast Image Synthesis,
Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Frédo Durand, William T. Freeman

📞 問い合わせ

論文に関する質問がある場合は、自由にお問い合わせください！

Tianwei Yin tianweiy@mit.edu

🚀 クイックスタート

💻 使用例

基本的な使用法

以下は、DMD2モデルを使用して画像を生成する基本的なコード例です。

4-step UNet生成

import torch
from diffusers import DiffusionPipeline, UNet2DConditionModel, LCMScheduler
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file
base_model_id = "stabilityai/stable-diffusion-xl-base-1.0"
repo_name = "tianweiy/DMD2"
ckpt_name = "dmd2_sdxl_4step_unet_fp16.bin"
# モデルをロードします。
unet = UNet2DConditionModel.from_config(base_model_id, subfolder="unet").to("cuda", torch.float16)
unet.load_state_dict(torch.load(hf_hub_download(repo_name, ckpt_name), map_location="cuda"))
pipe = DiffusionPipeline.from_pretrained(base_model_id, unet=unet, torch_dtype=torch.float16, variant="fp16").to("cuda")
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
prompt="a photo of a cat"

# LCMSchedulerのデフォルトのタイムステップは、学習時に使用したものと異なります。
image=pipe(prompt=prompt, num_inference_steps=4, guidance_scale=0, timesteps=[999, 749, 499, 249]).images[0]

4-step LoRA生成

import torch
from diffusers import DiffusionPipeline, UNet2DConditionModel, LCMScheduler
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file
base_model_id = "stabilityai/stable-diffusion-xl-base-1.0"
repo_name = "tianweiy/DMD2"
ckpt_name = "dmd2_sdxl_4step_lora_fp16.safetensors"
# モデルをロードします。
pipe = DiffusionPipeline.from_pretrained(base_model_id, torch_dtype=torch.float16, variant="fp16").to("cuda")
pipe.load_lora_weights(hf_hub_download(repo_name, ckpt_name))
pipe.fuse_lora(lora_scale=1.0)  # コミュニティモデルでは、スケールを小さくすることが望ましい場合があります。

pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
prompt="a photo of a cat"

# LCMSchedulerのデフォルトのタイムステップは、学習時に使用したものと異なります。
image=pipe(prompt=prompt, num_inference_steps=4, guidance_scale=0, timesteps=[999, 749, 499, 249]).images[0]

1-step UNet生成

import torch
from diffusers import DiffusionPipeline, UNet2DConditionModel, LCMScheduler
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file
base_model_id = "stabilityai/stable-diffusion-xl-base-1.0"
repo_name = "tianweiy/DMD2"
ckpt_name = "dmd2_sdxl_1step_unet_fp16.bin"
# モデルをロードします。
unet = UNet2DConditionModel.from_config(base_model_id, subfolder="unet").to("cuda", torch.float16)
unet.load_state_dict(torch.load(hf_hub_download(repo_name, ckpt_name), map_location="cuda"))
pipe = DiffusionPipeline.from_pretrained(base_model_id, unet=unet, torch_dtype=torch.float16, variant="fp16").to("cuda")
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
prompt="a photo of a cat"
image=pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0, timesteps=[399]).images[0]

4-step T2Iアダプタ

from diffusers import StableDiffusionXLAdapterPipeline, T2IAdapter, AutoencoderKL, UNet2DConditionModel, LCMScheduler
from diffusers.utils import load_image, make_image_grid
from controlnet_aux.canny import CannyDetector
from huggingface_hub import hf_hub_download
import torch

# アダプタをロードします。
adapter = T2IAdapter.from_pretrained("TencentARC/t2i-adapter-canny-sdxl-1.0", torch_dtype=torch.float16, varient="fp16").to("cuda")

vae=AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)

base_model_id = "stabilityai/stable-diffusion-xl-base-1.0"
repo_name = "tianweiy/DMD2"
ckpt_name = "dmd2_sdxl_4step_unet_fp16.bin"
# モデルをロードします。
unet = UNet2DConditionModel.from_config(base_model_id, subfolder="unet").to("cuda", torch.float16)
unet.load_state_dict(torch.load(hf_hub_download(repo_name, ckpt_name), map_location="cuda"))

pipe = StableDiffusionXLAdapterPipeline.from_pretrained(
    base_model_id, unet=unet, vae=vae, adapter=adapter, torch_dtype=torch.float16, variant="fp16", 
).to("cuda")
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
pipe.enable_xformers_memory_efficient_attention()

canny_detector = CannyDetector()

url = "https://huggingface.co/Adapter/t2iadapter/resolve/main/figs_SDXLV1.0/org_canny.jpg"
image = load_image(url)

# 高周波の詳細を避けるために、低解像度でキャニーマップを検出します。
image = canny_detector(image, detect_resolution=384, image_resolution=1024)#.resize((1024, 1024))

prompt = "Mystical fairy in real, magic, 4k picture, high quality"

gen_images = pipe(
  prompt=prompt,
  image=image,
  num_inference_steps=4,
  guidance_scale=0, 
  adapter_conditioning_scale=0.8, 
  adapter_conditioning_factor=0.5,
  timesteps=[999, 749, 499, 249]
).images[0]
gen_images.save('out_canny.png')

詳細な情報については、コードリポジトリを参照してください。

📄 ライセンス

Improved Distribution Matching Distillationは、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Licenseの下で公開されています。

📚 引用

DMD2があなたの研究に役立った場合、または関連する場合には、以下の論文を引用してください。

@article{yin2024improved,
    title={Improved Distribution Matching Distillation for Fast Image Synthesis},
    author={Yin, Tianwei and Gharbi, Micha{\"e}l and Park, Taesung and Zhang, Richard and Shechtman, Eli and Durand, Fredo and Freeman, William T},
    journal={arXiv:2405.14867},
    year={2024}
}

@inproceedings{yin2024onestep,
    title={One-step Diffusion with Distribution Matching Distillation},
    author={Yin, Tianwei and Gharbi, Micha{\"e}l and Zhang, Richard and Shechtman, Eli and Durand, Fr{\'e}do and Freeman, William T and Park, Taesung},
    booktitle={CVPR},
    year={2024}
}

🙏 謝辞

この研究は、Tianwei YinがMITの在籍学生である間に行われました。この研究は、元のDMD論文の再実装をベースに開発されました。この研究は、National Science Foundationの協定PHY - 2019786（NSF AI Institute for Artificial Intelligence and Fundamental Interactions, http://iaifi.org/）、NSF Grant 2105819、NSF CISE award 1955864、およびGoogle、GIST、Amazon、Quanta Computerからの資金提供によって支援されています。