Wuerstchenオープンソース画像生成モデル - 効率的なテキスト作画、計算コストを削減し無料で体験

ホーム

Wuerstchen

warp-aiによって開発

Würstchenは効率的なテキストから画像を生成する拡散モデルで、42倍の空間圧縮技術により計算コストを大幅に削減

テキスト生成画像オープンソースライセンス:MIT #高圧縮拡散モデル #低コスト画像生成 #高速推論最適化

ダウンロード数 829

リリース時間 : 7/19/2023

モデル概要

拡散モデルベースのテキストから画像生成システムで、3段階圧縮アーキテクチャにより効率的な生成を実現、高解像度画像生成をサポート

モデル特徴

超高圧縮率

42倍空間圧縮技術で、通常の4-8倍圧縮を大幅に上回る

低コスト推論

高度に圧縮された潜在空間で演算するため、トップモデルのごく一部の計算リソースで済む

解像度適応

1024x1024から1536x1536解像度をサポートし、新解像度に迅速に対応可能

モデル能力

テキストから画像生成

高解像度画像生成

高速画像サンプリング

使用事例

クリエイティブデザイン

キャラクターコンセプトデザイン

テキスト記述に基づき擬人化キャラクターを生成

例：'消防士服を着た擬人化猫'の画像生成

コンテンツ制作

SNS用画像

テキストテーマに合ったオリジナル画像を迅速生成

🚀 Würstchen - 概要

Würstchenは拡散モデルで、そのテキスト条件付きモデルは画像の高度に圧縮された潜在空間で動作します。なぜこれが重要なのでしょうか？データを圧縮することで、トレーニングと推論の両方の計算コストを大幅に削減することができます。1024x1024の画像でトレーニングするのは、32x32でトレーニングするよりもはるかにコストがかかります。通常、他の研究では4x - 8xの空間圧縮といった比較的小さな圧縮を利用しています。Würstchenはこれを極限まで追求し、独自の設計により42xの空間圧縮を達成しました。これは、一般的な方法では16xの空間圧縮を超えると詳細な画像を忠実に再構築できないため、これまでに例がないものです。Würstchenは2段階の圧縮、つまりステージAとステージBを採用しています。ステージAはVQGANで、ステージBは拡散オートエンコーダーです（詳細は論文を参照）。第3のモデルであるステージCは、この高度に圧縮された潜在空間で学習されます。このトレーニングに必要な計算量は、現在の最高性能のモデルに比べてごくわずかであり、推論も安価かつ高速に行えます。

✨ 主な機能

Würstchen - デコーダー

デコーダーは「ステージA」と「ステージB」のことを指します。デコーダーは、Prior（ステージC）によって生成された、または実際の画像から抽出された画像埋め込みを受け取り、それらの潜在表現をピクセル空間に戻します。具体的には、ステージBがまず画像埋め込みをVQGAN空間にデコードし、ステージA（VQGAN）が潜在表現をピクセル空間にデコードします。これにより、42倍の空間圧縮が達成されます。

注意: 再構築は損失を伴い、画像の情報が失われます。現在のステージBでは、再構築において細部が欠けることが多く、特に顔や手などを見るときに人間には顕著に感じられます。将来的にはこれらの再構築をさらに改善するために取り組んでいます！

画像サイズ

Würstchenは1024x1024から1536x1536の画像解像度でトレーニングされました。1024x2048のような解像度でも良好な出力が得られることがあります。ぜひ試してみてください。また、Prior（ステージC）は新しい解像度に非常に速く適応することがわかっています。したがって、2048x2048での微調整は計算コストが低くて済みます。

📦 インストール

このパイプラインは、事前学習モデル warp-ai/wuerstchen-prior と一緒に実行する必要があります。

💻 使用例

基本的な使用法

import torch
from diffusers import AutoPipelineForText2Image

device = "cuda"
dtype = torch.float16

pipeline =  AutoPipelineForText2Image.from_pretrained(
    "warp-diffusion/wuerstchen", torch_dtype=dtype
).to(device)

caption = "Anthropomorphic cat dressed as a fire fighter"

output = pipeline(
    prompt=caption,
    height=1024,
    width=1024,
    prior_guidance_scale=4.0,
    decoder_guidance_scale=0.0,
).images

画像サンプリング時間

下の図は、異なるバッチサイズ (num_images_per_prompt) におけるWürstchenの推論時間（A100上）を、Stable Diffusion XL（リファイナーなし）と比較したものです。左の図は推論時間（torch > 2.0を使用）を示しており、右の図は両方のパイプラインに事前に torch.compile を適用した場合を示しています。 image/jpeg

📚 詳細ドキュメント

モデルの詳細

属性	詳情
開発者	Pablo Pernias, Dominic Rampas
モデルタイプ	拡散ベースのテキストから画像生成モデル
言語	英語
ライセンス	MIT
モデルの説明	このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。これは、Würstchen論文のステージCのスタイルの拡散モデルで、固定された事前学習済みのテキストエンコーダー (CLIP ViT-bigG/14) を使用しています。
詳細情報のリソース	GitHubリポジトリ, 論文
引用形式	@inproceedings{ pernias2024wrstchen, title={W"urstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models}, author={Pablo Pernias and Dominic Rampas and Mats Leon Richter and Christopher Pal and Marc Aubreville}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=gU58d5QeGv} }

環境への影響

Würstchen v2 推定排出量 この情報に基づいて、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して、以下のCO2排出量を推定します。ハードウェア、実行時間、クラウドプロバイダー、およびコンピュートリージョンを利用して、炭素排出量を推定しました。