mar開源圖像生成模型 - 免向量量化，在連續空間生成高質量圖像

首頁

Mar

由jadechoghari開發

一種創新的自迴歸圖像生成方法，通過消除向量量化需求，在連續值空間中實現高質量圖像生成

圖像生成開源協議:MIT #連續值空間生成 #擴散自迴歸 #高分辨率圖像合成

下載量 1,027

發布時間 : 9/7/2024

模型概述

該模型提出了一種無需向量量化的自迴歸圖像生成方法，通過擴散過程對每個標記的概率分佈進行建模，在保持自迴歸序列建模速度優勢的同時實現高效圖像生成

模型特點

無需向量量化

在連續值空間中運行，消除了傳統方法對離散標記的依賴

高效生成

結合自迴歸序列建模的速度優勢和擴散模型的生成質量

多規模選擇

提供base/large/huge三種預訓練模型規模可選

模型能力

無條件圖像生成

高質量圖像合成

連續值空間建模

使用案例

創意圖像生成

藝術創作

生成具有藝術風格的原創圖像

可生成多樣化高質量圖像

設計輔助

為設計師提供創意靈感和素材

🚀 無矢量量化的自迴歸圖像生成

本項目提出了一種無需矢量量化的自迴歸圖像生成新方法，簡化了生成流程，能夠高效且高質量地生成圖像，適用於更廣泛的連續值領域。

🚀 快速開始

本模型（MAR）通過消除對矢量量化的需求，為自迴歸圖像生成引入了一種新穎的方法。該模型不依賴離散標記，而是使用擴散過程在連續值空間中對每個標記的概率分佈進行建模。通過採用擴散損失函數，模型在受益於自迴歸序列建模速度優勢的同時，實現了高效且高質量的圖像生成。這種方法簡化了生成過程，使其不僅適用於圖像合成，還適用於更廣泛的連續值領域。該方法基於這篇論文。

✨ 主要特性

無需矢量量化：採用新穎方法，擺脫對矢量量化的依賴。
連續值空間建模：使用擴散過程在連續值空間中對每個標記的概率分佈進行建模。
高效高質量：藉助擴散損失函數和自迴歸序列建模的速度優勢，實現高效且高質量的圖像生成。
廣泛適用性：不僅適用於圖像合成，還可應用於更廣泛的連續值領域。

📦 安裝指南

你可以通過Hugging Face的DiffusionPipeline輕鬆加載該模型，並可選擇自定義各種參數，如模型類型、步數和類別標籤。

💻 使用示例

基礎用法

from diffusers import DiffusionPipeline

# load the pretrained model
pipeline = DiffusionPipeline.from_pretrained("jadechoghari/mar", trust_remote_code=True, custom_pipeline="jadechoghari/mar")

# generate an image with the model
generated_image = pipeline(
    model_type="mar_huge",  # choose from 'mar_base', 'mar_large', or 'mar_huge'
    seed=42,                # set a seed for reproducibility
    num_ar_steps=64,        # number of autoregressive steps
    class_labels=[207, 360, 388],  # provide valid ImageNet class labels
    cfg_scale=4,            # classifier-free guidance scale
    output_dir="./images",   # directory to save generated images
    cfg_schedule = "constant", # choose between 'constant' (suggested) and 'linear'
)

# display the generated image
generated_image.show()

此代碼加載模型，配置其進行圖像生成，並將輸出保存到指定目錄。

我們提供三種safetensors格式的預訓練MAR模型：

mar-base.safetensors
mar-large.safetensors
mar-huge.safetensors

📚 詳細文檔

這是論文無矢量量化的自迴歸圖像生成的Hugging Face Diffusers/GPU實現。

官方PyTorch實現發佈在此倉庫。

@article{li2024autoregressive,
  title={Autoregressive Image Generation without Vector Quantization},
  author={Li, Tianhong and Tian, Yonglong and Li, He and Deng, Mingyang and He, Kaiming},
  journal={arXiv preprint arXiv:2406.11838},
  year={2024}
}