🚀 参照なしで拡散モデルをアラインするためのマージン認識型嗜好最適化
私たちは、テキストから画像への拡散モデルに対する、参照不要、サンプル効率が高く、メモリにやさしいアラインメント技術であるMaPOを提案しています。この技術の詳細については、こちらの論文を参照してください。
📄 ライセンス
属性 |
详情 |
ライセンス |
OpenRail++ |
ライブラリ名 |
diffusers |
タグ |
text-to-image、text-to-image、diffusers-training、diffusers、stable-diffusion-xl、stable-diffusion-xl-diffusers |
ベースモデル |
stabilityai/stable-diffusion-xl-base-1.0 |
👥 開発者
- Jiwoo Hong* (KAIST AI)
- Sayak Paul* (Hugging Face)
- Noah Lee (KAIST AI)
- Kashif Rasul (Hugging Face)
- James Thorne (KAIST AI)
- Jongheon Jeong (Korea University)
📊 データセット
このモデルは、Stable Diffusion XLをyuvalkirstain/pickapic_v2データセットでファインチューニングしたものです。
💻 コードリポジトリ
トレーニングコードについては、こちらのコードリポジトリを参照してください。
👀 定性的比較
📈 結果
以下に、いくつかの定量的な指標を報告し、MaPOを既存のモデルと比較します。
モデル |
審美性 |
HPS v2.1 |
Pickscore |
SDXL |
6.03 |
30.0 |
22.4 |
SFTChosen |
5.95 |
29.6 |
22.0 |
Diffusion-DPO |
6.03 |
31.1 |
22.7 |
MaPO (Ours) |
6.17 |
31.2 |
22.5 |
私たちは、このチェックポイントをImgsysの公開ベンチマークで評価しました。MaPOは、Diffusion-DPOの20位に対し、執筆時点でリーダーボードで7位にランクインし、25の最先端のテキストから画像への拡散モデルのうち21を上回るか同等の性能を発揮しました。また、Pick-a-Pic v2を適応させる際の実時間トレーニング時間を14.5%削減することができました。imgsysチームが人間の嗜好データを取得するのを手伝ってくれたことに感謝します。
以下の表は、MaPOのメモリ効率を報告しており、拡散モデルのアラインメントファインチューニングにおいて優れた代替手段となっています。
指標 |
Diffusion-DPO |
MaPO (Ours) |
時間 (↓) |
63.5 |
54.3 (-14.5%) |
GPUメモリ (↓) |
55.9 |
46.1 (-17.5%) |
最大バッチ (↑) |
4 |
16 (×4) |
💻 使用例
基本的な使用法
from diffusers import DiffusionPipeline, AutoencoderKL, UNet2DConditionModel
import torch
sdxl_id = "stabilityai/stable-diffusion-xl-base-1.0"
vae_id = "madebyollin/sdxl-vae-fp16-fix"
unet_id = "mapo-t2i/mapo-beta"
vae = AutoencoderKL.from_pretrained(vae_id, torch_dtype=torch.float16)
unet = UNet2DConditionModel.from_pretrained(unet_id, torch_dtype=torch.float16)
pipeline = DiffusionPipeline.from_pretrained(sdxl_id, vae=vae, unet=unet, torch_dtype=torch.float16).to("cuda")
prompt = "An abstract portrait consisting of bold, flowing brushstrokes against a neutral background."
image = pipeline(prompt=prompt, num_inference_steps=30).images[0]
定性的な結果については、プロジェクトウェブサイトをご覧ください。
📚 引用
@misc{hong2024marginaware,
title={Margin-aware Preference Optimization for Aligning Diffusion Models without Reference},
author={Jiwoo Hong and Sayak Paul and Noah Lee and Kashif Rasul and James Thorne and Jongheon Jeong},
year={2024},
eprint={2406.06424},
archivePrefix={arXiv},
primaryClass={cs.CV}
}