mar开源图像生成模型 - 免向量量化，在连续空间生成高质量图像

首页

Mar

由 jadechoghari 开发

一种创新的自回归图像生成方法，通过消除向量量化需求，在连续值空间中实现高质量图像生成

图像生成开源协议:MIT #连续值空间生成 #扩散自回归 #高分辨率图像合成

下载量 1,027

发布时间 : 9/7/2024

模型简介

该模型提出了一种无需向量量化的自回归图像生成方法，通过扩散过程对每个标记的概率分布进行建模，在保持自回归序列建模速度优势的同时实现高效图像生成

模型特点

无需向量量化

在连续值空间中运行，消除了传统方法对离散标记的依赖

高效生成

结合自回归序列建模的速度优势和扩散模型的生成质量

多规模选择

提供base/large/huge三种预训练模型规模可选

模型能力

无条件图像生成

高质量图像合成

连续值空间建模

使用案例

创意图像生成

艺术创作

生成具有艺术风格的原创图像

可生成多样化高质量图像

设计辅助

为设计师提供创意灵感和素材

🚀 无矢量量化的自回归图像生成

本项目提出了一种无需矢量量化的自回归图像生成新方法，简化了生成流程，能够高效且高质量地生成图像，适用于更广泛的连续值领域。

🚀 快速开始

本模型（MAR）通过消除对矢量量化的需求，为自回归图像生成引入了一种新颖的方法。该模型不依赖离散标记，而是使用扩散过程在连续值空间中对每个标记的概率分布进行建模。通过采用扩散损失函数，模型在受益于自回归序列建模速度优势的同时，实现了高效且高质量的图像生成。这种方法简化了生成过程，使其不仅适用于图像合成，还适用于更广泛的连续值领域。该方法基于这篇论文。

✨ 主要特性

无需矢量量化：采用新颖方法，摆脱对矢量量化的依赖。
连续值空间建模：使用扩散过程在连续值空间中对每个标记的概率分布进行建模。
高效高质量：借助扩散损失函数和自回归序列建模的速度优势，实现高效且高质量的图像生成。
广泛适用性：不仅适用于图像合成，还可应用于更广泛的连续值领域。

📦 安装指南

你可以通过Hugging Face的DiffusionPipeline轻松加载该模型，并可选择自定义各种参数，如模型类型、步数和类别标签。

💻 使用示例

基础用法

from diffusers import DiffusionPipeline

# load the pretrained model
pipeline = DiffusionPipeline.from_pretrained("jadechoghari/mar", trust_remote_code=True, custom_pipeline="jadechoghari/mar")

# generate an image with the model
generated_image = pipeline(
    model_type="mar_huge",  # choose from 'mar_base', 'mar_large', or 'mar_huge'
    seed=42,                # set a seed for reproducibility
    num_ar_steps=64,        # number of autoregressive steps
    class_labels=[207, 360, 388],  # provide valid ImageNet class labels
    cfg_scale=4,            # classifier-free guidance scale
    output_dir="./images",   # directory to save generated images
    cfg_schedule = "constant", # choose between 'constant' (suggested) and 'linear'
)

# display the generated image
generated_image.show()

此代码加载模型，配置其进行图像生成，并将输出保存到指定目录。

我们提供三种safetensors格式的预训练MAR模型：

mar-base.safetensors
mar-large.safetensors
mar-huge.safetensors

📚 详细文档

这是论文无矢量量化的自回归图像生成的Hugging Face Diffusers/GPU实现。

官方PyTorch实现发布在此仓库。

@article{li2024autoregressive,
  title={Autoregressive Image Generation without Vector Quantization},
  author={Li, Tianhong and Tian, Yonglong and Li, He and Deng, Mingyang and He, Kaiming},
  journal={arXiv preprint arXiv:2406.11838},
  year={2024}
}