Pixelflow Class2Image

由ShoufaChen開發

PixelFlow 是一個基於流的像素空間生成模型，專注於圖像生成任務。

圖像生成

PyTorch

開源協議:MIT #像素級圖像生成 #類別條件生成 #基於流模型

下載量 72

發布時間 : 4/8/2025

模型概述

PixelFlow 是一個基於流的生成模型，直接在像素空間進行操作，支持類別條件圖像生成。

模型特點

基於流的生成模型

採用基於流的架構，直接在像素空間進行圖像生成。

類別條件生成

支持基於類別的條件圖像生成。

像素空間操作

直接在像素空間進行操作，無需額外的特徵轉換。

模型能力

圖像生成

類別條件圖像生成

使用案例

圖像生成

類別條件圖像生成

根據指定的類別生成對應的圖像。

🚀 PixelFlow：基於流的像素空間生成模型

PixelFlow是一系列直接在原始像素空間中運行的圖像生成模型，與主流的潛在空間模型不同。這種方法無需預訓練的變分自編碼器（VAE），簡化了圖像生成過程，並且使整個模型能夠進行端到端訓練。通過高效的級聯流建模，PixelFlow在像素空間中實現了可承受的計算成本。

數據集

ILSVRC/imagenet-1k

許可證

MIT

任務類型

圖像到圖像

庫名稱

PyTorch

PixelFlow: Pixel-Space Generative Models with Flow

[![arXiv](https://img.shields.io/badge/arXiv%20paper-2504.07963-b31b1b.svg)](https://arxiv.org/abs/2504.07963) [![GitHub](https://img.shields.io/badge/GitHub-PixelFlow-181717?logo=github)](https://github.com/ShoufaChen/PixelFlow) [![demo](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Online_Demo-blue)](https://huggingface.co/spaces/ShoufaChen/PixelFlow)

PixelFlow: Pixel-Space Generative Models with Flow
Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
香港大學，Adobe

✨ 主要特性

我們提出了PixelFlow，這是一系列直接在原始像素空間中運行的圖像生成模型，與主流的潛在空間模型不同。這種方法通過消除對預訓練變分自編碼器（VAE）的需求，簡化了圖像生成過程，並使整個模型能夠進行端到端訓練。通過高效的級聯流建模，PixelFlow在像素空間中實現了可承受的計算成本。它在256x256 ImageNet類別條件圖像生成基準上實現了1.98的FID。定性的文本到圖像結果表明，PixelFlow在圖像質量、藝術性和語義控制方面表現出色。我們希望這種新範式將為下一代視覺生成模型帶來啟發並開闢新的機會。

📦 模型庫

模型	任務	參數數量	FID	檢查點
PixelFlow	類別到圖像	6.77億	1.98	🤗
PixelFlow	文本到圖像	8.82億	未提供	🤗

📦 安裝指南

1. 創建環境

conda create -n pixelflow python=3.12
conda activate pixelflow

2. 安裝依賴項

PyTorch 2.6.0 — 根據您的系統配置（CUDA版本等）進行安裝。
flash-attention v2.7.4.post1：可選，僅訓練時需要。
其他包：pip3 install -r requirements.txt

💻 使用示例

在線演示

我們為類別到圖像生成提供了一個在線Gradio演示。

本地部署

您也可以通過以下命令輕鬆在本地部署類別到圖像和文本到圖像的演示：

python app.py --checkpoint /path/to/checkpoint --class_cond  # 類別到圖像

或者

python app.py --checkpoint /path/to/checkpoint  # 文本到圖像

📚 訓練

1. ImageNet數據集準備

從http://www.image-net.org/下載ImageNet數據集。
使用extract_ILSVRC.sh提取並將訓練和驗證圖像組織到帶標籤的子文件夾中。

2. 訓練命令

torchrun --nnodes=1 --nproc_per_node=8 train.py configs/pixelflow_xl_c2i.yaml

📚 評估（FID、Inception Score等）

我們提供了一個sample_ddp.py腳本，改編自DiT，用於生成樣本圖像並將其保存為文件夾和.npz文件。.npz文件與ADM的TensorFlow評估套件兼容，允許直接計算FID、Inception Score和其他指標。

torchrun --nnodes=1 --nproc_per_node=8 sample_ddp.py --pretrained /path/to/checkpoint

📄 BibTeX引用

@article{chen2025pixelflow,
  title={PixelFlow: Pixel-Space Generative Models with Flow},
  author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
  journal={arXiv preprint arXiv:2504.07963},
  year={2025}
}