🚀 PixelFlow:基于流的像素空间生成模型
PixelFlow是一系列直接在原始像素空间中运行的图像生成模型,与主流的潜在空间模型不同。这种方法无需预训练的变分自编码器(VAE),简化了图像生成过程,并且使整个模型能够进行端到端训练。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。
数据集
许可证
MIT
任务类型
图像到图像
库名称
PyTorch
标签
- 生成模型
- 图像生成
- 类别条件
- 基于流的模型
- 像素空间
PixelFlow: Pixel-Space Generative Models with Flow
[](https://arxiv.org/abs/2504.07963)
[](https://github.com/ShoufaChen/PixelFlow)
[](https://huggingface.co/spaces/ShoufaChen/PixelFlow)
PixelFlow: Pixel-Space Generative Models with Flow
Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
香港大学,Adobe
✨ 主要特性
我们提出了PixelFlow,这是一系列直接在原始像素空间中运行的图像生成模型,与主流的潜在空间模型不同。这种方法通过消除对预训练变分自编码器(VAE)的需求,简化了图像生成过程,并使整个模型能够进行端到端训练。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。它在256x256 ImageNet类别条件图像生成基准上实现了1.98的FID。定性的文本到图像结果表明,PixelFlow在图像质量、艺术性和语义控制方面表现出色。我们希望这种新范式将为下一代视觉生成模型带来启发并开辟新的机会。
📦 模型库
模型 |
任务 |
参数数量 |
FID |
检查点 |
PixelFlow |
类别到图像 |
6.77亿 |
1.98 |
🤗 |
PixelFlow |
文本到图像 |
8.82亿 |
未提供 |
🤗 |
📦 安装指南
1. 创建环境
conda create -n pixelflow python=3.12
conda activate pixelflow
2. 安装依赖项
💻 使用示例
在线演示
我们为类别到图像生成提供了一个在线Gradio演示。
本地部署
您也可以通过以下命令轻松在本地部署类别到图像和文本到图像的演示:
python app.py --checkpoint /path/to/checkpoint --class_cond
或者
python app.py --checkpoint /path/to/checkpoint
📚 训练
1. ImageNet数据集准备
2. 训练命令
torchrun --nnodes=1 --nproc_per_node=8 train.py configs/pixelflow_xl_c2i.yaml
📚 评估(FID、Inception Score等)
我们提供了一个sample_ddp.py脚本,改编自DiT,用于生成样本图像并将其保存为文件夹和.npz文件。.npz文件与ADM的TensorFlow评估套件兼容,允许直接计算FID、Inception Score和其他指标。
torchrun --nnodes=1 --nproc_per_node=8 sample_ddp.py --pretrained /path/to/checkpoint
📄 BibTeX引用
@article{chen2025pixelflow,
title={PixelFlow: Pixel-Space Generative Models with Flow},
author={Chen, Shoufa and Ge, Chongjian and Zhang, Shilong and Sun, Peize and Luo, Ping},
journal={arXiv preprint arXiv:2504.07963},
year={2025}
}