PixArt-XL-2-1024-MSオープンソース画像生成モデル - 低コストで1024ピクセルの高品質画像を生成

ホーム

Pixart XL 2 1024 MS

PixArt-alphaによって開発

Pixart-αはTransformerアーキテクチャに基づく高効率テキスト画像生成モデルで、極めて低いトレーニングコストで1024ピクセルの高品質画像を生成可能

画像生成 #高効テキスト画像生成 #Transformer拡散モデル #低コストトレーニング

ダウンロード数 119.36k

リリース時間 : 11/4/2023

モデル概要

純粋なTransformerモジュールで構築された潜在拡散モデルで、テキストプロンプトから直接高解像度画像を生成し、トレーニング効率が同類モデルを大幅に上回る

モデル特徴

超高トレーニング効率

SDv1.5の10.8%のトレーニングコスト（675 A100 GPU日）のみで、90%のCO2排出削減

単段階高解像度生成

多段階処理不要で直接1024px画像を生成

Transformerアーキテクチャ

純粋Transformerモジュール構築で、効率的並列計算をサポート

オープンソースエコシステム

完全コード公開、Diffusersライブラリ統合、HuggingFace/Colab体験可能

モデル能力

テキスト画像生成

高解像度画像生成

アートスタイル創作

コンセプト可視化

使用事例

クリエイティブデザイン

アート創作支援

テキスト記述から迅速にコンセプトスケッチを生成

デザインプロセスの加速、創作インスピレーションの刺激

教育可視化

教材用の概念図を生成

複雑な概念の直観的表現

技術研究

生成モデル研究

高効率拡散モデルアーキテクチャの探求

低コスト研究ベンチマークの提供

🚀 🐱 Pixart-α モデルカード

Pixart-αは、テキストプロンプトから直接1024pxの画像を生成できる潜在拡散モデルです。Transformerブロックを用いた革新的なアーキテクチャにより、高品質な画像生成が可能です。

🚀 クイックスタート

必要なライブラリのインストール

まずは、必要なライブラリをインストールしましょう。

pip install -U diffusers --upgrade

加えて、transformers、safetensors、sentencepiece、accelerateをインストールします。

pip install transformers accelerate safetensors sentencepiece

モデルの使用例

ベースモデルを使用するには、以下のコードを実行します。

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

torch >= 2.0を使用する場合、torch.compileを用いることで推論速度を20-30%向上させることができます。パイプラインを実行する前に、unetをtorch.compileでラップします。

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合は、.to("cuda")の代わりにpipe.enable_model_cpu_offloadを呼び出してcpu offloadingを有効にすることができます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

diffusersでPixart-αを使用する方法の詳細については、Pixart-αのドキュメントを参照してください。

無料のGoogle Colabでの利用

Google Colabを使って、無料でPixArt-αから画像を生成することができます。ここをクリックして試してみてください。

✨ 主な機能

高効率な学習

PixArt-αは、Stable Diffusion v1.5の学習時間のわずか10.8%（675対6,250 A100 GPU days）で学習でき、約30万ドル（26,000対320,000ドル）を節約し、CO2排出量を90%削減します。さらに、より大規模なSOTAモデルであるRAPHAELと比較すると、学習コストはわずか1%です。 Training Efficiency.

手法	タイプ	パラメータ数	画像数	A100 GPU days
DALL·E	Diff	12.0B	1.54B
GLIDE	Diff	5.0B	5.94B
LDM	Diff	1.4B	0.27B
DALL·E 2	Diff	6.5B	5.63B	41,66
SDv1.5	Diff	0.9B	3.16B	6,250
GigaGAN	GAN	0.9B	0.98B	4,783
Imagen	Diff	3.0B	15.36B	7,132
RAPHAEL	Diff	3.0B	5.0B	60,000
PixArt-α	Diff	0.6B	0.025B	675

高品質な画像生成

comparison 上のグラフは、Pixart-αとSDXL 0.9、Stable Diffusion 2、DALLE-2、DeepFloydに対するユーザーの好みを評価しています。Pixart-αのベースモデルは、既存の最先端モデルと同等またはそれ以上の性能を発揮します。

📦 インストール

必要なライブラリのインストール

pip install -U diffusers --upgrade

加えて、transformers、safetensors、sentencepiece、accelerateをインストールします。

pip install transformers accelerate safetensors sentencepiece

💻 使用例

基本的な使用法

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

高度な使用法

torch >= 2.0を使用する場合、torch.compileを用いることで推論速度を20-30%向上させることができます。

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合は、.to("cuda")の代わりにpipe.enable_model_cpu_offloadを呼び出してcpu offloadingを有効にすることができます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

📚 ドキュメント

モデルの説明

開発者: Pixart-α
モデルタイプ: 拡散Transformerベースのテキストから画像への生成モデル
ライセンス: CreativeML Open RAIL++-M License
モデルの説明: このモデルは、テキストプロンプトに基づいて画像を生成および修正するために使用できます。Transformer Latent Diffusion Modelであり、1つの固定された事前学習済みテキストエンコーダー（T5）と1つの潜在特徴エンコーダー（VAE）を使用します。
詳細情報のリソース: GitHubリポジトリとarXivのPixart-αレポートをチェックしてください。

モデルのソース

研究目的では、generative-modelsのGitHubリポジトリ（https://github.com/PixArt-alpha/PixArt-alpha）をおすすめします。これはトレーニングと推論の両方に適しており、SA-Solverのような最新の拡散サンプラーが随時追加されます。 Hugging Faceは、無料のPixart-α推論を提供しています。