开源mapo-beta文生图模型 - 无需样本高效节能轻松生成图像

首页

Mapo Beta

由 mapo-t2i 开发

MaPO是一种无需参考样本、高效节能且内存友好的文生图扩散模型对齐方法

文本生成图像 #文生图优化 #无参考对齐 #高效微调

下载量 30

发布时间 : 6/10/2024

模型简介

基于Stable Diffusion XL模型，使用偏好优化技术进行微调，提升图像生成的美学质量和人类偏好对齐

模型特点

无参考对齐

无需参考样本即可实现人类偏好对齐

高效节能

相比扩散DPO节省14.5%训练耗时

内存友好

显存占用减少17.5%，支持更大批次训练

美学优化

在美学评分、HPS和PickScore指标上表现优异

模型能力

高质量图像生成

文本到图像转换

人类偏好对齐

美学优化

使用案例

创意设计

抽象艺术创作

生成具有艺术风格的抽象图像

中性背景上由大胆流动笔触构成的抽象肖像画

商业应用

广告素材生成

快速生成符合人类偏好的广告图像

🚀 无参考对齐扩散模型的边际感知偏好优化

我们提出了 MaPO，这是一种无参考、样本高效且节省内存的文本到图像扩散模型对齐技术。有关该技术的更多详细信息，请参阅我们的论文点击查看。

👥 开发者

洪智宇^* (韩国科学技术院人工智能系)
赛亚克·保罗^* (Hugging Face)
诺亚·李 (韩国科学技术院人工智能系)
卡希夫·拉苏尔 (Hugging Face)
詹姆斯·索恩 (韩国科学技术院人工智能系)
郑正宪 (韩国大学)

📊 数据集

该模型是在 yuvalkirstain/pickapic_v2 数据集上对 Stable Diffusion XL 进行微调得到的。

💻 训练代码

请参考我们的代码仓库点击查看。

🖼️ 定性比较

📈 结果

下面我们报告一些定量指标，并使用这些指标将 MaPO 与现有模型进行比较：

模型	美学得分	HPS v2.1 得分	Pickscore 得分
SDXL	6.03	30.0	22.4
SFT_Chosen	5.95	29.6	22.0
Diffusion-DPO	6.03	31.1	22.7
MaPO (我们的模型)	6.17	31.2	22.5

我们在 Imgsys 公开基准测试中评估了该检查点。在撰写本文时，MaPO 在排行榜上排名第 7，能够在 25 个最先进的文本到图像扩散模型中超越或匹配其中 21 个，而 Diffusion-DPO 排名第 20。同时，在适配 Pick-a-Pic v2 时，MaPO 的实际训练时间减少了 14.5%。我们感谢 Imgsys 团队帮助我们获取人类偏好数据。

下表报告了 MaPO 的内存效率，使其成为扩散模型对齐微调的更好选择：

指标	Diffusion-DPO	MaPO (我们的模型)
时间 (越低越好)	63.5	54.3 (-14.5%)
GPU 内存 (越低越好)	55.9	46.1 (-17.5%)
最大批次大小 (越高越好)	4	16 (×4)

💻 使用示例

基础用法

from diffusers import DiffusionPipeline, AutoencoderKL, UNet2DConditionModel
import torch 

sdxl_id = "stabilityai/stable-diffusion-xl-base-1.0"
vae_id = "madebyollin/sdxl-vae-fp16-fix"
unet_id = "mapo-t2i/mapo-beta"

vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16)
unet = UNet2DConditionModel.from_pretrained(unet_id, torch_dtype=torch.float16)
pipeline = DiffusionPipeline.from_pretrained(sdxl_id, vae=vae, unet=unet, torch_dtype=torch.float16).to("cuda")

prompt = "An abstract portrait consisting of bold, flowing brushstrokes against a neutral background."
image = pipeline(prompt=prompt, num_inference_steps=30).images[0]

如需查看定性结果，请访问我们的项目网站。

📚 引用

@misc{hong2024marginaware,
  title={Margin-aware Preference Optimization for Aligning Diffusion Models without Reference}, 
  author={Jiwoo Hong and Sayak Paul and Noah Lee and Kashif Rasul and James Thorne and Jongheon Jeong},
  year={2024},
  eprint={2406.06424},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}