🚀 クイックスタート
Pixart-αは、潜在拡散のための純粋なトランスフォーマーブロックで構成されたテキストから画像を生成するモデルです。1回のサンプリングプロセスでテキストプロンプトから直接1024pxの画像を生成できます。
必要なライブラリのインストール
まずは、必要なライブラリをインストールしましょう。
pip install -U diffusers --upgrade
pip install transformers accelerate safetensors
基本的な使用法
以下のコードを使って、Pixart-αを使って画像を生成しましょう。
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
高度な使用法
torch >= 2.0
を使用する場合、torch.compile
を使って推論速度を20 - 30%向上させることができます。
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
GPU VRAMに制限がある場合は、.to("cuda")
の代わりにpipe.enable_model_cpu_offload
を呼び出すことで、CPUオフロードを有効にできます。
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
🐱 Pixart-α モデルカード

✨ 主な機能
モデル概要

Pixart-αは、潜在拡散のための純粋なトランスフォーマーブロックで構成されています。1回のサンプリングプロセスでテキストプロンプトから直接1024pxの画像を生成できます。ソースコードはhttps://github.com/PixArt-alpha/PixArt-alphaで入手できます。
モデルの詳細
モデルのソース
研究目的では、generative-models
のGitHubリポジトリ(https://github.com/PixArt-alpha/PixArt-alpha)をおすすめします。これはトレーニングと推論の両方に適しており、SA-Solverのような最新の拡散サンプラーが随時追加されます。Hugging Faceでは、無料でPixart-αの推論を行うことができます。
- リポジトリ: https://github.com/PixArt-alpha/PixArt-alpha
- デモ: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha
🔥🔥🔥 PixArt-αの魅力
トレーニングの効率性
PixArt-αは、Stable Diffusion v1.5のトレーニング時間のわずか10.8%(675対6,250 A100 GPU日)で済み、約30万ドル(26,000対320,000ドル)を節約し、CO2排出量を90%削減します。さらに、より大規模なSOTAモデルであるRAPHAELと比較して、トレーニングコストはわずか1%です。

手法 |
タイプ |
パラメータ数 |
画像数 |
A100 GPU日数 |
DALL·E |
拡散 |
12.0B |
1.54B |
|
GLIDE |
拡散 |
5.0B |
5.94B |
|
LDM |
拡散 |
1.4B |
0.27B |
|
DALL·E 2 |
拡散 |
6.5B |
5.63B |
41.66 |
SDv1.5 |
拡散 |
0.9B |
3.16B |
6,250 |
GigaGAN |
GAN |
0.9B |
0.98B |
4,783 |
Imagen |
拡散 |
3.0B |
15.36B |
7,132 |
RAPHAEL |
拡散 |
3.0B |
5.0B |
60,000 |
PixArt-α |
拡散 |
0.6B |
0.025B |
675 |
評価
上のグラフは、Pixart-αとSDXL 0.9、Stable Diffusion 2、DALLE-2、DeepFloydに対するユーザーの好みを評価しています。Pixart-αのベースモデルは、既存の最先端モデルと同等またはそれ以上の性能を発揮します。
📦 インストール
必要なライブラリのインストール
まずは、必要なライブラリをインストールしましょう。
pip install -U diffusers --upgrade
pip install transformers accelerate safetensors
💻 使用例
基本的な使用法
以下のコードを使って、Pixart-αを使って画像を生成しましょう。
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]
高度な使用法
torch >= 2.0
を使用する場合、torch.compile
を使って推論速度を20 - 30%向上させることができます。
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
GPU VRAMに制限がある場合は、.to("cuda")
の代わりにpipe.enable_model_cpu_offload
を呼び出すことで、CPUオフロードを有効にできます。
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
無料のGoogle Colabでの使用
Google Colabを使って、無料でPixArt-αから画像を生成できます。ここをクリックして試してみてください。
📚 ドキュメント
直接使用
このモデルは研究目的のみを意図しています。可能な研究分野とタスクには以下が含まれます。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的なツールでの応用。
- 生成モデルの研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全な展開。
- 生成モデルの制限とバイアスの調査と理解。
以下に記載されている使用法は対象外です。
想定外の使用
このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
🔧 技術詳細
制限事項
- モデルは完全な写実性を達成しません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
- 一般的に指などが適切に生成されない場合があります。
- モデルの自動符号化部分は損失があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルはCreativeML Open RAIL++-M Licenseの下で提供されています。