🚀 Q-Align - 零樣本圖像分類模型
Q-Align 是一個對應於 ICML2024 的模型,主要用於零樣本圖像分類任務,能對圖像質量、美學等方面進行評分。
🚀 快速開始
使用 AutoModel 快速上手
對於這張圖片:
,使用 transformers==4.36.1
啟動一個 AutoModel 評分器:
import requests
import torch
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("q-future/one-align", trust_remote_code=True, attn_implementation="eager",
torch_dtype=torch.float16, device_map="auto")
from PIL import Image
url = "https://raw.githubusercontent.com/Q-Future/Q-Align/main/fig/singapore_flyer.jpg"
image = Image.open(requests.get(url,stream=True).raw)
model.score([image], task_="quality", input_="image")
結果應該是 1.911(範圍在 [1,5] 內,值越高越好)。
論文鏈接:arxiv.org/abs/2312.17090
。
📚 課程大綱

📊 IQA 結果(斯皮爾曼/皮爾遜/肯德爾係數)
數據集 |
KonIQ (NR - IQA, 已見) |
SPAQ (NR - IQA, 已見) |
KADID (FR - IQA, 已見) |
LIVE - C (NR - IQA, 未見) |
LIVE (FR - IQA, 未見) |
CSIQ (FR - IQA, 未見) |
AGIQA (AIGC, 未見) |
先前的最優模型 |
0.916/0.928 (MUSIQ, ICCV2021) |
0.922/0.919 (LIQE, CVPR2023) |
0.934/0.937 (CONTRIQUE, TIP2022) |
未提供 |
未提供 |
未提供 |
未提供 |
Q - Align (IQA) |
0.937/0.945/0.785 |
0.931/0.933/0.763 |
0.934/0.934/0.777 |
0.887/0.896/0.706 |
0.874/0.840/0.682 |
0.845/0.876/0.654 |
0.731/0.791/0.529 |
Q - Align (IQA + VQA) |
0.944/0.949/0.797 |
0.931/0.934/0.764 |
0.952/0.953/0.809 |
0.892/0.899/0.715 |
0.874/0.846/0.684 |
0.852/0.876/0.663 |
0.739/0.782/0.526 |
OneAlign (IQA + IAA + VQA) |
0.941/0.950/0.791 |
0.932/0.935/0.766 |
0.941/0.942/0.791 |
0.881/0.894/0.699 |
0.887/0.856/0.699 |
0.881/0.906/0.699 |
0.801/0.838/0.602 |
📊 IAA 結果(斯皮爾曼/皮爾遜係數)
數據集 |
AVA_test |
VILA (CVPR, 2023) |
0.774/0.774 |
LIQE (CVPR, 2023) |
0.776/0.763 |
Aesthetic Predictor (在 AVA_train 上重新訓練) |
0.721/0.723 |
Q - Align (IAA) |
0.822/0.817 |
OneAlign (IQA + IAA + VQA) |
0.823/0.819 |
📊 VQA 結果(斯皮爾曼/皮爾遜係數)
數據集 |
LSVQ_test |
LSVQ_1080p |
KoNViD - 1k |
MaxWell_test |
SimpleVQA (ACMMM, 2022) |
0.867/0.861 |
0.764/0.803 |
0.840/0.834 |
0.720/0.715 |
FAST - VQA (ECCV 2022) |
0.876/0.877 |
0.779/0.814 |
0.859/0.855 |
0.721/0.724 |
Q - Align (VQA) |
0.883/0.882 |
0.797/0.830 |
0.865/0.877 |
0.780/0.782 |
Q - Align (IQA + VQA) |
0.885/0.883 |
0.802/0.829 |
0.867/0.880 |
0.781/0.787 |
OneAlign (IQA + IAA + VQA) |
0.886/0.886 |
0.803/0.837 |
0.876/0.888 |
0.781/0.786 |
📄 許可證
本項目採用 MIT 許可證。