🚀 PixelFlow:基於流的像素空間生成模型
PixelFlow是一系列直接在原始像素空間中運行的圖像生成模型,與主流的潛在空間模型不同。這種方法無需預訓練的變分自編碼器(VAE),簡化了圖像生成過程,並且使整個模型能夠進行端到端訓練。通過高效的級聯流建模,PixelFlow在像素空間中實現了可承受的計算成本。
數據集
許可證
MIT
任務類型
圖像到圖像
庫名稱
PyTorch
標籤
- 生成模型
- 圖像生成
- 類別條件
- 基於流的模型
- 像素空間
PixelFlow: Pixel-Space Generative Models with Flow
[](https://arxiv.org/abs/2504.07963)
[](https://github.com/ShoufaChen/PixelFlow)
[](https://huggingface.co/spaces/ShoufaChen/PixelFlow)
PixelFlow: Pixel-Space Generative Models with Flow
Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
香港大學,Adobe
✨ 主要特性
我們提出了PixelFlow,這是一系列直接在原始像素空間中運行的圖像生成模型,與主流的潛在空間模型不同。這種方法通過消除對預訓練變分自編碼器(VAE)的需求,簡化了圖像生成過程,並使整個模型能夠進行端到端訓練。通過高效的級聯流建模,PixelFlow在像素空間中實現了可承受的計算成本。它在256x256 ImageNet類別條件圖像生成基準上實現了1.98的FID。定性的文本到圖像結果表明,PixelFlow在圖像質量、藝術性和語義控制方面表現出色。我們希望這種新範式將為下一代視覺生成模型帶來啟發並開闢新的機會。
📦 模型庫
模型 |
任務 |
參數數量 |
FID |
檢查點 |
PixelFlow |
類別到圖像 |
6.77億 |
1.98 |
🤗 |
PixelFlow |
文本到圖像 |
8.82億 |
未提供 |
🤗 |
📦 安裝指南
1. 創建環境
conda create -n pixelflow python=3.12
conda activate pixelflow
2. 安裝依賴項
💻 使用示例
在線演示
我們為類別到圖像生成提供了一個在線Gradio演示。
本地部署
您也可以通過以下命令輕鬆在本地部署類別到圖像和文本到圖像的演示:
python app.py --checkpoint /path/to/checkpoint --class_cond
或者
python app.py --checkpoint /path/to/checkpoint
📚 訓練
1. ImageNet數據集準備
2. 訓練命令
torchrun --nnodes=1 --nproc_per_node=8 train.py configs/pixelflow_xl_c2i.yaml
📚 評估(FID、Inception Score等)
我們提供了一個sample_ddp.py腳本,改編自DiT,用於生成樣本圖像並將其保存為文件夾和.npz文件。.npz文件與ADM的TensorFlow評估套件兼容,允許直接計算FID、Inception Score和其他指標。
torchrun --nnodes=1 --nproc_per_node=8 sample_ddp.py --pretrained /path/to/checkpoint
📄 BibTeX引用
@article{chen2025pixelflow,
title={PixelFlow: Pixel-Space Generative Models with Flow},
author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
journal={arXiv preprint arXiv:2504.07963},
year={2025}
}