mar_test2开源图像生成模型 - 无需向量量化实现高质量图像创作

首页

Mar Test2

由 V3nator 开发

一种创新的自回归图像生成方法，通过消除向量量化需求实现高质量图像生成

图像生成开源协议:MIT #连续值空间生成 #免向量量化 #自回归扩散

下载量 39

发布时间 : 1/22/2025

模型简介

该模型采用连续值空间运作，利用扩散过程对每个标记的概率分布进行建模，而非依赖离散标记，简化了生成流程并拓展了应用领域

模型特点

无向量量化

消除传统自回归模型对向量量化的依赖，直接在连续值空间运作

扩散损失函数

引入扩散损失函数建模标记概率分布，保持自回归速度优势的同时提升生成质量

多规模预训练

提供base/large/huge三种预训练模型规模，适应不同计算需求

模型能力

无条件图像生成

高质量图像合成

连续值空间建模

使用案例

创意设计

概念艺术生成

快速生成创意概念图像

高质量且多样化的视觉输出

数据增强

训练数据扩充

为视觉模型训练生成补充数据

提升模型泛化能力

🚀 无向量量化的自回归图像生成

本模型（MAR）引入了一种新颖的自回归图像生成方法，无需进行向量量化。该模型不依赖离散令牌，而是在连续值空间中使用扩散过程对每个令牌的概率分布进行建模。通过采用扩散损失函数，模型在实现高效高质量图像生成的同时，还能受益于自回归序列建模的速度优势。这种方法简化了生成过程，使其不仅适用于图像合成，还能应用于更广泛的连续值领域。它基于这篇论文。

🚀 快速开始

你可以通过Hugging Face的DiffusionPipeline轻松加载该模型，并可选择自定义各种参数，如模型类型、步数和类别标签。

from diffusers import DiffusionPipeline

# load the pretrained model
pipeline = DiffusionPipeline.from_pretrained("jadechoghari/mar", trust_remote_code=True, custom_pipeline="jadechoghari/mar")

# generate an image with the model
generated_image = pipeline(
    model_type="mar_huge",  # choose from 'mar_base', 'mar_large', or 'mar_huge'
    seed=42,                # set a seed for reproducibility
    num_ar_steps=64,        # number of autoregressive steps
    class_labels=[207, 360, 388],  # provide valid ImageNet class labels
    cfg_scale=4,            # classifier-free guidance scale
    output_dir="./images",   # directory to save generated images
    cfg_schedule = "constant", # choose between 'constant' (suggested) and 'linear'
)

# display the generated image
generated_image.show()

此代码加载模型，配置其进行图像生成，并将输出保存到指定目录。

我们以safetensors格式提供了三个预训练的MAR模型：

mar-base.safetensors
mar-large.safetensors
mar-huge.safetensors

这是论文无向量量化的自回归图像生成在Hugging Face Diffusers/GPU上的实现。

官方的PyTorch实现发布在这个仓库。

@article{li2024autoregressive,
  title={Autoregressive Image Generation without Vector Quantization},
  author={Li, Tianhong and Tian, Yonglong and Li, He and Deng, Mingyang and He, Kaiming},
  journal={arXiv preprint arXiv:2406.11838},
  year={2024}
}

✨ 主要特性

引入新颖的自回归图像生成方法，无需向量量化。
在连续值空间中使用扩散过程对每个令牌的概率分布进行建模。
采用扩散损失函数，实现高效高质量图像生成，同时受益于自回归序列建模的速度优势。
简化生成过程，适用于更广泛的连续值领域。

💻 使用示例

基础用法

from diffusers import DiffusionPipeline

# load the pretrained model
pipeline = DiffusionPipeline.from_pretrained("jadechoghari/mar", trust_remote_code=True, custom_pipeline="jadechoghari/mar")

# generate an image with the model
generated_image = pipeline(
    model_type="mar_huge",  # choose from 'mar_base', 'mar_large', or 'mar_huge'
    seed=42,                # set a seed for reproducibility
    num_ar_steps=64,        # number of autoregressive steps
    class_labels=[207, 360, 388],  # provide valid ImageNet class labels
    cfg_scale=4,            # classifier-free guidance scale
    output_dir="./images",   # directory to save generated images
    cfg_schedule = "constant", # choose between 'constant' (suggested) and 'linear'
)

# display the generated image
generated_image.show()

高级用法

你可以根据实际需求进一步调整模型参数，以实现不同的图像生成效果。例如，调整num_ar_steps来改变自回归步数，或者调整cfg_scale来改变分类器自由引导比例。

# 这里可以根据具体的高级场景进行说明
from diffusers import DiffusionPipeline

pipeline = DiffusionPipeline.from_pretrained("jadechoghari/mar", trust_remote_code=True, custom_pipeline="jadechoghari/mar")

# 调整参数以实现不同效果
generated_image = pipeline(
    model_type="mar_large",  # 选择不同的模型类型
    seed=123,                # 设置不同的种子以获得不同的随机结果
    num_ar_steps=128,        # 增加自回归步数以提高图像质量
    class_labels=[100, 200, 300],  # 提供不同的ImageNet类别标签
    cfg_scale=6,            # 调整分类器自由引导比例
    output_dir="./new_images",   # 保存到不同的目录
    cfg_schedule = "linear", # 选择不同的调度策略
)

generated_image.show()