ldm - text2im - large - 256オープンソース画像生成モデル - テキストに基づいた高解像度画像の効率的合成

Ldm Text2im Large 256

CompVisによって開発

潜在拡散モデルに基づく高解像度テキストから画像生成モデル、潜在空間操作による効率的な画像合成を実現

画像生成オープンソースライセンス:Apache-2.0 #テキストから画像生成 #潜在空間拡散 #高解像度合成

ダウンロード数 1,932

リリース時間 : 7/18/2022

モデル概要

このモデルは潜在拡散技術を採用し、事前学習済みオートエンコーダの潜在空間で拡散プロセスを実行することで高品質な画像生成を実現します。テキストプロンプトによる生成内容の制御をサポートし、ピクセル空間拡散モデルと比較して計算需要を大幅に削減します。

モデル特徴

潜在空間での効率的生成

事前学習済みオートエンコーダの潜在空間で拡散プロセスを実行し、ピクセルレベル操作と比較して計算コストを大幅に削減

高解像度合成

畳み込み方式による高解像度画像生成を実現し、視覚的忠実度を維持

柔軟な条件制御

テキストやバウンディングボックスなど様々な条件入力をサポートし、再学習なしで生成プロセスを誘導可能

モデル能力

テキストから画像生成

画像合成

条件付き画像生成

使用事例

クリエイティブコンテンツ生成

アート創作

文章記述に基づいて油絵、水彩画などの芸術スタイル画像を生成

生成例のハンバーガーを食べるリス油絵は優れた芸術表現力を示しています

デザイン支援

コンセプト可視化

テキストコンセプトを迅速に視覚化し、デザインプロセスを支援

🚀 潜在拡散モデル (LDM) による高解像度画像合成

潜在拡散モデル (LDM) は、画像合成プロセスをノイズ除去オートエンコーダーの逐次適用に分解することで、高品質な画像合成を実現します。また、クロスアテンション層を導入することで、テキストやバウンディングボックスなどの一般的な条件入力に対応した柔軟な生成が可能になります。

🚀 クイックスタート

潜在拡散モデル (LDM) は、画像形成プロセスをノイズ除去オートエンコーダーの逐次適用に分解することで、画像データなどで最先端の合成結果を達成します。また、このモデルは、再トレーニングすることなく画像生成プロセスを制御するガイドメカニズムを備えています。

✨ 主な機能

潜在空間での拡散モデルのトレーニングにより、計算リソースを大幅に削減しつつ、高品質な画像合成を実現します。
クロスアテンション層を導入することで、テキストやバウンディングボックスなどの一般的な条件入力に対応した柔軟な生成が可能になります。
高解像度合成が畳み込み方式で可能になり、画像のインペインティングや様々なタスクで競争力のある性能を発揮します。

📦 インストール

# !pip install diffusers transformers

💻 使用例

基本的な使用法

# !pip install diffusers transformers
from diffusers import DiffusionPipeline

model_id = "CompVis/ldm-text2im-large-256"

# load model and scheduler
ldm = DiffusionPipeline.from_pretrained(model_id)

# run pipeline in inference (sample random noise and denoise)
prompt = "A painting of a squirrel eating a burger"
images = ldm([prompt], num_inference_steps=50, eta=0.3, guidance_scale=6).images

# save images
for idx, image in enumerate(images):
    image.save(f"squirrel-{idx}.png")

📚 ドキュメント

論文

論文: High-Resolution Image Synthesis with Latent Diffusion Models (LDM)s

概要

画像形成プロセスをノイズ除去オートエンコーダーの逐次適用に分解することで、拡散モデル (DM) は画像データなどで最先端の合成結果を達成します。また、その定式化により、再トレーニングすることなく画像生成プロセスを制御するガイドメカニズムが可能になります。しかし、これらのモデルは通常、ピクセル空間で直接動作するため、強力な DM の最適化には数百の GPU 日数を消費することが多く、逐次評価による推論コストも高いです。計算リソースが限られた環境でも DM のトレーニングを可能にし、品質と柔軟性を維持するために、強力な事前学習済みオートエンコーダーの潜在空間で拡散モデルを適用します。従来の研究とは異なり、このような表現で拡散モデルをトレーニングすることで、初めて複雑さの削減と詳細の保存の間でほぼ最適なポイントに到達することができ、視覚的な忠実度が大幅に向上します。モデルアーキテクチャにクロスアテンション層を導入することで、拡散モデルを、テキストやバウンディングボックスなどの一般的な条件入力に対する強力で柔軟な生成器に変え、畳み込み方式で高解像度合成が可能になります。私たちの潜在拡散モデル (LDM) は、画像のインペインティングで新たな最先端技術を達成し、無条件画像生成、セマンティックシーン合成、超解像などの様々なタスクで競争力のある性能を発揮し、ピクセルベースの DM と比較して計算要件を大幅に削減します。

🔧 技術詳細

論文「High-Resolution Image Synthesis with Latent Diffusion Models (LDM)s」では、潜在拡散モデル (LDM) の詳細な技術的な説明が提供されています。この論文では、画像形成プロセスをノイズ除去オートエンコーダーの逐次適用に分解することで、高品質な画像合成を実現する方法が解説されています。また、クロスアテンション層を導入することで、テキストやバウンディングボックスなどの一般的な条件入力に対応した柔軟な生成が可能になる仕組みも説明されています。