🚀 🐱 PixArt-Σ モデルカード
PixArt-Σは、潜在拡散に純粋なトランスフォーマーブロックを使用したテキストから画像を生成するモデルです。単一のサンプリングプロセスで1024px、2K、4Kの画像を直接生成できます。

📦 インストール
必要なライブラリのアップグレード
⚠️ 重要提示
diffusersをバージョン0.28.0以上にアップグレードしてください。
pip install -U diffusers --upgrade
さらに、transformers
、safetensors
、sentencepiece
、accelerate
をインストールしてください。
pip install transformers accelerate safetensors sentencepiece
diffusers<0.28.0
の場合は、このスクリプトを参照してください。
💻 使用例
基本的な使用法
import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
weight_dtype = torch.float16
pipe = PixArtSigmaPipeline.from_pretrained(
"PixArt-alpha/PixArt-Sigma-XL-2-1024-MS",
torch_dtype=weight_dtype,
use_safetensors=True,
)
pipe.to(device)
prompt = "A small cactus with a happy face in the Sahara desert."
image = pipe(prompt).images[0]
image.save("./catcus.png")
高度な使用法
torch.compileを使用した推論速度の向上
torch >= 2.0
を使用する場合、torch.compileを使用することで推論速度を20-30%向上させることができます。パイプラインを実行する前に、unetをtorch compileでラップします。
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
GPU VRAMが制限されている場合
GPU VRAMが制限されている場合は、.to("cuda")
の代わりにpipe.enable_model_cpu_offload
を呼び出すことでcpu offloadingを有効にできます。
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()
詳細な使用方法
PixArt-Σをdiffusers
で使用する方法の詳細については、PixArt-Σのドキュメントを参照してください。
📚 ドキュメント
モデル

PixArt-Σ は、潜在拡散に純粋なトランスフォーマーブロックから構成されています。単一のサンプリングプロセスで、テキストプロンプトから直接1024px、2K、4Kの画像を生成することができます。
ソースコードは、https://github.com/PixArt-alpha/PixArt-sigma で入手できます。
モデルの説明
モデルのソース
研究目的では、generative-models
のGitHubリポジトリ (https://github.com/PixArt-alpha/PixArt-sigma) をお勧めします。これは、トレーニングと推論の両方に適しており、SA-Solver のような最新の拡散サンプラーが随時追加されます。
Hugging Face では、無料でPixArt-Σの推論を利用できます。
- リポジトリ: https://github.com/PixArt-alpha/PixArt-sigma
- デモ: https://huggingface.co/spaces/PixArt-alpha/PixArt-Sigma
使用用途
直接使用
このモデルは研究目的のみを想定しています。可能な研究分野やタスクには以下が含まれます。
- アートワークの生成とデザインやその他の芸術的プロセスでの使用。
- 教育または創造的なツールでのアプリケーション。
- 生成モデルに関する研究。
- 有害なコンテンツを生成する可能性のあるモデルの安全なデプロイ。
- 生成モデルの制限とバイアスの調査と理解。
以下に記載されている使用法は対象外です。
対象外の使用
このモデルは、人やイベントの事実的または真実の表現として訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。
制限とバイアス
制限
- モデルは完全な写実性を達成しません。
- モデルは読み取り可能なテキストをレンダリングできません。
- モデルは、「青い球体の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
- 一般的に、指などが適切に生成されない場合があります。
- モデルのオートエンコーディング部分は損失があります。
バイアス
画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。
📄 ライセンス
このモデルは CreativeML Open RAIL++-M License の下で提供されています。