🚀 PixelFlow: Pixel-Space Generative Models with Flow
PixelFlowは、主に潜在空間モデルとは対照的に、生のピクセル空間で直接動作する画像生成モデルのファミリーです。このアプローチは、事前学習された変分オートエンコーダ(VAE)の必要性を排除し、モデル全体をエンドツーエンドで学習可能にすることで、画像生成プロセスを簡素化します。
属性 |
详情 |
データセット |
ILSVRC/imagenet-1k |
ライセンス |
mit |
パイプラインタグ |
image-to-image |
ライブラリ名 |
pytorch |
タグ |
generative-model、image-generation、class-conditional、flow-based-model、pixel-space |
🚀 クイックスタート
PixelFlowは、生のピクセル空間で直接動作する画像生成モデルのファミリーです。このアプローチは、事前学習された変分オートエンコーダ(VAE)の必要性を排除し、モデル全体をエンドツーエンドで学習可能にすることで、画像生成プロセスを簡素化します。
✨ 主な機能
- 生のピクセル空間で直接動作し、事前学習されたVAEが不要です。
- モデル全体をエンドツーエンドで学習可能です。
- 効率的なカスケードフローモデリングにより、ピクセル空間での計算コストを抑えます。
- 256x256 ImageNetのクラス条件付き画像生成ベンチマークでFID 1.98を達成します。
- 質的なテキストから画像への生成結果は、画像品質、芸術性、およびセマンティックコントロールに優れています。
📦 インストール
1. 環境の作成
conda create -n pixelflow python=3.12
conda activate pixelflow
2. 依存関係のインストール:
💻 使用例
オンラインデモ
クラスから画像への生成のためのオンラインGradioデモを提供しています。
ローカルデプロイ
クラスから画像への生成とテキストから画像への生成の両方のデモをローカルで簡単にデプロイできます。
python app.py --checkpoint /path/to/checkpoint --class_cond
または
python app.py --checkpoint /path/to/checkpoint
📚 ドキュメント
モデル一覧
モデル |
タスク |
パラメータ |
FID |
チェックポイント |
PixelFlow |
class-to-image |
677M |
1.98 |
🤗 |
PixelFlow |
text-to-image |
882M |
N/A |
🤗 |
トレーニング
1. ImageNetの準備
2. トレーニングコマンド
torchrun --nnodes=1 --nproc_per_node=8 train.py configs/pixelflow_xl_c2i.yaml
評価(FID、Inception Scoreなど)
sample_ddp.py スクリプトを提供しています。これは DiT から適応されたもので、サンプル画像を生成し、フォルダとして保存するとともに、.npzファイルとして保存します。.npzファイルはADMのTensorFlow評価スイートと互換性があり、FID、Inception Score、およびその他のメトリクスを直接計算できます。
torchrun --nnodes=1 --nproc_per_node=8 sample_ddp.py --pretrained /path/to/checkpoint
📄 ライセンス
@article{chen2025pixelflow,
title={PixelFlow: Pixel-Space Generative Models with Flow},
author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
journal={arXiv preprint arXiv:2504.07963},
year={2025}
}