ldm-celebahq-256オープンソース画像生成モデル - 低い計算要件で高品質な画像を生成

ホーム

Ldm Celebahq 256

CompVisによって開発

潜在拡散モデル（LDM）は潜在空間に拡散モデルを適用した効率的な画像生成手法で、計算需要を大幅に削減しながら高品質な生成効果を維持します。

画像生成オープンソースライセンス:Apache-2.0 #高解像度画像生成 #潜在空間拡散 #無条件画像合成

ダウンロード数 268

リリース時間 : 7/15/2022

モデル概要

LDMは事前訓練済みオートエンコーダの潜在空間に拡散モデルを適用することで、複雑さの低減と細部の保持のバランスを実現し、無条件画像生成、意味的シーン合成、超解像などのタスクをサポートします。

モデル特徴

潜在空間拡散

事前訓練済みオートエンコーダの潜在空間に拡散モデルを適用し、計算需要を大幅に削減しながら高品質な生成効果を維持します。

効率的な推論

ピクセルベースの拡散モデルと比較して、LDMは推論時の計算リソース消費を大幅に削減します。

柔軟な条件制御

クロスアテンション層を通じてテキストやバウンディングボックスなどの汎用的な条件入力をサポートし、制御可能な画像生成を実現します。

モデル能力

無条件画像生成

高解像度画像合成

潜在空間画像処理

使用事例

クリエイティブコンテンツ生成

顔画像生成

CelebA-HQデータセットで訓練されたモデルを使用して高品質な顔画像を生成

256x256解像度の顔画像を生成

画像処理

画像超解像

低解像度画像を高解像度バージョンに変換

🚀 潜在拡散モデル (LDM)

潜在拡散モデル（LDM）は、画像生成や画像修復などのタスクで高い性能を発揮する拡散モデルです。計算コストを削減しつつ、高品質な画像合成を可能にします。

🚀 クイックスタート

潜在拡散モデル（LDM）は、画像形成プロセスをノイズ除去オートエンコーダの逐次適用に分解することで、画像データなどで最先端の合成結果を達成します。

✨ 主な機能

高解像度画像合成：潜在空間での拡散モデルのトレーニングにより、高解像度の画像合成が可能です。
柔軟な生成：クロスアテンション層を導入することで、テキストやバウンディングボックスなどの一般的な条件入力に対応した強力で柔軟な生成器となります。
計算コスト削減：ピクセル空間での操作ではなく、事前学習されたオートエンコーダの潜在空間で動作するため、計算コストを大幅に削減します。

📚 ドキュメント

論文情報

論文：High-Resolution Image Synthesis with Latent Diffusion Models
概要：拡散モデル（DM）は、画像形成プロセスをノイズ除去オートエンコーダの逐次適用に分解することで、画像データなどで最先端の合成結果を達成します。また、再トレーニングすることなく画像生成プロセスを制御するためのガイドメカニズムを可能にします。しかし、これらのモデルは通常ピクセル空間で直接動作するため、強力なDMの最適化には数百GPU日を消費することが多く、逐次評価による推論コストも高いです。計算資源が限られた環境でもDMの品質と柔軟性を維持しながらトレーニングを可能にするため、強力な事前学習されたオートエンコーダの潜在空間でDMを適用します。以前の研究とは対照的に、このような表現上で拡散モデルをトレーニングすることで、初めて複雑性の削減と詳細の保存の間でほぼ最適なポイントに到達することができ、視覚的な忠実度が大幅に向上します。モデルアーキテクチャにクロスアテンション層を導入することで、拡散モデルをテキストやバウンディングボックスなどの一般的な条件入力に対する強力で柔軟な生成器に変え、畳み込み方式で高解像度合成が可能になります。我々の潜在拡散モデル（LDM）は、画像修復において新たな最先端技術を達成し、無条件画像生成、セマンティックシーン合成、超解像などの様々なタスクで非常に競争力のある性能を発揮し、ピクセルベースのDMと比較して計算要件を大幅に削減します。
著者：Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer

💻 使用例

基本的な使用法

!pip install diffusers
from diffusers import DiffusionPipeline

model_id = "CompVis/ldm-celebahq-256"

# load model and scheduler
pipeline = DiffusionPipeline.from_pretrained(model_id)

# run pipeline in inference (sample random noise and denoise)
image = pipeline(num_inference_steps=200)["sample"]

# save image
image[0].save("ldm_generated_image.png")

高度な使用法

!pip install diffusers
from diffusers import UNet2DModel, DDIMScheduler, VQModel
import torch
import PIL.Image
import numpy as np
import tqdm

seed = 3

# load all models
unet = UNet2DModel.from_pretrained("CompVis/ldm-celebahq-256", subfolder="unet")
vqvae = VQModel.from_pretrained("CompVis/ldm-celebahq-256", subfolder="vqvae")
scheduler = DDIMScheduler.from_config("CompVis/ldm-celebahq-256", subfolder="scheduler")

# set to cuda
torch_device = "cuda" if torch.cuda.is_available() else "cpu"

unet.to(torch_device)
vqvae.to(torch_device)

# generate gaussian noise to be decoded
generator = torch.manual_seed(seed)
noise = torch.randn(
    (1, unet.in_channels, unet.sample_size, unet.sample_size),
    generator=generator,
).to(torch_device)

# set inference steps for DDIM
scheduler.set_timesteps(num_inference_steps=200)

image = noise
for t in tqdm.tqdm(scheduler.timesteps):
    # predict noise residual of previous image
    with torch.no_grad():
        residual = unet(image, t)["sample"]

    # compute previous image x_t according to DDIM formula
    prev_image = scheduler.step(residual, t, image, eta=0.0)["prev_sample"]

    # x_t-1 -> x_t
    image = prev_image

# decode image with vae
with torch.no_grad():
    image = vqvae.decode(image)

# process image
image_processed = image.cpu().permute(0, 2, 3, 1)
image_processed = (image_processed + 1.0) * 127.5
image_processed = image_processed.clamp(0, 255).numpy().astype(np.uint8)
image_pil = PIL.Image.fromarray(image_processed[0])

image_pil.save(f"generated_image_{seed}.png")