PixArt-XL-2-512x512オープンソース画像生成モデル - テキスト入力で1024ピクセルの画像を生成

ホーム

Pixart XL 2 512x512

PixArt-alphaによって開発

Pixart-αはTransformerアーキテクチャに基づくテキストから画像生成モデルで、テキストプロンプトから直接1024ピクセルの画像を生成でき、トレーニング効率が同類モデルを大幅に上回ります。

テキスト生成画像 #高効率テキストから画像生成 #Transformer拡散 #低トレーニングコスト

ダウンロード数 3,971

リリース時間 : 11/4/2023

モデル概要

純粋なTransformerモジュールで構築された潜在拡散モデルで、固定の事前トレーニング済みテキストエンコーダー(T5)と潜在特徴エンコーダー(VAE)を使用し、高品質な画像を効率的に生成できます。

モデル特徴

効率的なトレーニング

Stable Diffusion v1.5のトレーニング時間のわずか10.8%で済み、約30万ドルのコスト削減と90%のCO2排出削減を実現

高品質生成

ユーザー評価ではSDXL、DALLE-2などのSOTAモデルに匹敵または凌駕する性能

直接高解像度生成

単一サンプリングで1024ピクセル画像を生成可能で、多段階処理が不要

モデル能力

テキストから画像生成

高解像度画像生成

アート創作

デザイン支援

使用事例

クリエイティブデザイン

アート創作

テキスト記述に基づいて芸術作品を生成

芸術的なスタイルの画像を生成

コンセプトデザイン

製品/シーンのコンセプト図を迅速に生成

デザイナーがアイデアを迅速に可視化する支援

教育研究

生成モデル研究

拡散モデルのトレーニング効率と生成品質を研究

効率的なモデルアーキテクチャの参考を提供

🚀 クイックスタート

Pixart-αは、潜在拡散のための純粋なトランスフォーマーブロックで構成されたテキストから画像を生成するモデルです。1回のサンプリングプロセスでテキストプロンプトから直接1024pxの画像を生成できます。

必要なライブラリのインストール

まずは、必要なライブラリをインストールしましょう。

pip install -U diffusers --upgrade

pip install transformers accelerate safetensors

基本的な使用法

以下のコードを使って、Pixart-αを使って画像を生成しましょう。

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

高度な使用法

torch >= 2.0を使用する場合、torch.compileを使って推論速度を20 - 30%向上させることができます。

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合は、.to("cuda")の代わりにpipe.enable_model_cpu_offloadを呼び出すことで、CPUオフロードを有効にできます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

🐱 Pixart-α モデルカード

row01

✨ 主な機能

モデル概要

pipeline

Pixart-αは、潜在拡散のための純粋なトランスフォーマーブロックで構成されています。1回のサンプリングプロセスでテキストプロンプトから直接1024pxの画像を生成できます。ソースコードはhttps://github.com/PixArt-alpha/PixArt-alphaで入手できます。

モデルの詳細

属性	详情
開発者	Pixart-α
モデルタイプ	拡散トランスフォーマーベースのテキストから画像を生成するモデル
ライセンス	CreativeML Open RAIL++-M License
モデルの説明	このモデルは、テキストプロンプトに基づいて画像を生成および変更するために使用できます。Transformer Latent Diffusion Modelであり、1つの固定された事前学習済みテキストエンコーダー(T5)と1つの潜在特徴エンコーダー(VAE)を使用します。
詳細情報のリソース	GitHubリポジトリとPixart-αのarXivレポートをご確認ください。

モデルのソース

研究目的では、generative-modelsのGitHubリポジトリ(https://github.com/PixArt-alpha/PixArt-alpha)をおすすめします。これはトレーニングと推論の両方に適しており、SA-Solverのような最新の拡散サンプラーが随時追加されます。Hugging Faceでは、無料でPixart-αの推論を行うことができます。

リポジトリ: https://github.com/PixArt-alpha/PixArt-alpha
デモ: https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha

🔥🔥🔥 PixArt-αの魅力

トレーニングの効率性

PixArt-αは、Stable Diffusion v1.5のトレーニング時間のわずか10.8%（675対6,250 A100 GPU日）で済み、約30万ドル（26,000対320,000ドル）を節約し、CO2排出量を90%削減します。さらに、より大規模なSOTAモデルであるRAPHAELと比較して、トレーニングコストはわずか1%です。 Training Efficiency.

手法	タイプ	パラメータ数	画像数	A100 GPU日数
DALL·E	拡散	12.0B	1.54B
GLIDE	拡散	5.0B	5.94B
LDM	拡散	1.4B	0.27B
DALL·E 2	拡散	6.5B	5.63B	41.66
SDv1.5	拡散	0.9B	3.16B	6,250
GigaGAN	GAN	0.9B	0.98B	4,783
Imagen	拡散	3.0B	15.36B	7,132
RAPHAEL	拡散	3.0B	5.0B	60,000
PixArt-α	拡散	0.6B	0.025B	675

評価

comparison 上のグラフは、Pixart-αとSDXL 0.9、Stable Diffusion 2、DALLE-2、DeepFloydに対するユーザーの好みを評価しています。Pixart-αのベースモデルは、既存の最先端モデルと同等またはそれ以上の性能を発揮します。

📦 インストール

必要なライブラリのインストール

まずは、必要なライブラリをインストールしましょう。

pip install -U diffusers --upgrade

pip install transformers accelerate safetensors

💻 使用例

基本的な使用法

以下のコードを使って、Pixart-αを使って画像を生成しましょう。

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "An astronaut riding a green horse"
images = pipe(prompt=prompt).images[0]

高度な使用法

torch >= 2.0を使用する場合、torch.compileを使って推論速度を20 - 30%向上させることができます。

pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

GPU VRAMに制限がある場合は、.to("cuda")の代わりにpipe.enable_model_cpu_offloadを呼び出すことで、CPUオフロードを有効にできます。

- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

無料のGoogle Colabでの使用

Google Colabを使って、無料でPixArt-αから画像を生成できます。ここをクリックして試してみてください。

📚 ドキュメント

直接使用

このモデルは研究目的のみを意図しています。可能な研究分野とタスクには以下が含まれます。

アートワークの生成とデザインやその他の芸術的プロセスでの使用。
教育または創造的なツールでの応用。
生成モデルの研究。
有害なコンテンツを生成する可能性のあるモデルの安全な展開。
生成モデルの制限とバイアスの調査と理解。

以下に記載されている使用法は対象外です。

想定外の使用

このモデルは、人やイベントの事実的または真実の表現を生成するように訓練されていないため、このようなコンテンツを生成するためにモデルを使用することは、このモデルの能力範囲外です。

🔧 技術詳細

制限事項

モデルは完全な写実性を達成しません。
モデルは読み取り可能なテキストをレンダリングできません。
モデルは、「青い球の上に赤い立方体」に対応する画像をレンダリングするなど、構成性を伴うより難しいタスクに苦労します。
一般的に指などが適切に生成されない場合があります。
モデルの自動符号化部分は損失があります。

バイアス

画像生成モデルの能力は印象的ですが、社会的バイアスを強化または悪化させる可能性もあります。

📄 ライセンス

このモデルはCreativeML Open RAIL++-M Licenseの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご