PixArt-Sigma-XL-2-1024-MSオープンソース画像生成モデル - テキストプロンプトで簡単に最大4K解像度の高解像度画像を生成

ホーム

Pixart Sigma XL 2 1024 MS

PixArt-alphaによって開発

PixArt-ΣはTransformerアーキテクチャに基づく潜在拡散モデルで、テキストプロンプトから直接高解像度画像（最大4K）を生成できます。

画像生成 #高解像度画像生成 #Transformer拡散モデル #単一サンプリング4K

ダウンロード数 7,283

リリース時間 : 4/11/2024

モデル概要

純粋なTransformerモジュールで構築された潜在拡散モデルで、単一サンプリングで1024ピクセル、2Kおよび4K解像度の画像を生成可能。T5テキストエンコーダーとVAE潜在特徴エンコーダーを統合。

モデル特徴

高解像度生成

単一サンプリングで最大4K解像度の画像を生成可能

効率的なTransformerアーキテクチャ

純粋なTransformerモジュールを採用し、従来の拡散モデルよりも計算効率に優れる

マルチモーダル統合

T5テキストエンコーダーとVAE潜在特徴エンコーダーを統合し、高品質なテキスト-画像連携を実現

モデル能力

テキストから画像生成

高解像度画像生成

画像編集

使用事例

クリエイティブデザイン

アート創作補助

テキスト記述に基づいて自動的にクリエイティブなコンセプトアートを生成

アイデアの迅速な可視化

デザインプロトタイプ生成

製品/インターフェースデザインのための迅速なプロトタイプを提供

デザインイテレーションプロセスの加速

教育研究

生成モデル研究

拡散Transformerアーキテクチャの性能限界を探求

生成モデル技術の進歩を推進

🚀 🐱 PixArt-Σ モデルカード

PixArt-Σは、潜在拡散に純粋なトランスフォーマーブロックを使用したテキストから画像を生成するモデルです。単一のサンプリングプロセスで1024px、2K、4Kの画像を直接生成できます。

row01

📦 インストール

必要なライブラリのアップグレード

⚠️ 重要提示

diffusersをバージョン0.28.0以上にアップグレードしてください。
pip install -U diffusers --upgrade
さらに、transformers、safetensors、sentencepiece、accelerateをインストールしてください。
pip install transformers accelerate safetensors sentencepiece
diffusers<0.28.0の場合は、このスクリプトを参照してください。

💻 使用例

基本的な使用法

import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
weight_dtype = torch.float16

pipe = PixArtSigmaPipeline.from_pretrained(
    "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", 
    torch_dtype=weight_dtype,
    use_safetensors=True,
)
pipe.to(device)

# Enable memory optimizations.
# pipe.enable_model_cpu_offload()

prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt).images[0]
image.save("./catcus.png")

高度な使用法

torch.compileを使用した推論速度の向上

torch >= 2.0を使用する場合、torch.compileを使用することで推論速度を20-30%向上させることができます。パイプラインを実行する前に、unetをtorch compileでラップします。

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU VRAMが制限されている場合

GPU VRAMが制限されている場合は、.to("cuda")の代わりにpipe.enable_model_cpu_offloadを呼び出すことでcpu offloadingを有効にできます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

詳細な使用方法

PixArt-Σをdiffusersで使用する方法の詳細については、PixArt-Σのドキュメントを参照してください。

📚 ドキュメント

モデル

pipeline

PixArt-Σ は、潜在拡散に純粋なトランスフォーマーブロックから構成されています。単一のサンプリングプロセスで、テキストプロンプトから直接1024px、2K、4Kの画像を生成することができます。

ソースコードは、https://github.com/PixArt-alpha/PixArt-sigma で入手できます。

モデルの説明

属性	详情
開発者	PixArt-Σ
モデルタイプ	Diffusion-Transformerベースのテキストから画像への生成モデル
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。Transformer Latent Diffusion Model であり、1つの固定された事前学習済みテキストエンコーダー (T5) と1つの潜在特徴エンコーダー (VAE) を使用しています。
詳細情報のリソース	GitHubリポジトリと arXivのPixArt-Σレポートをご確認ください。

モデルのソース

研究目的では、generative-modelsのGitHubリポジトリ (https://github.com/PixArt-alpha/PixArt-sigma) をお勧めします。これは、トレーニングと推論の両方に適しており、SA-Solver のような最新の拡散サンプラーが随時追加されます。 Hugging Face では、無料でPixArt-Σの推論を利用できます。