One - Alignオープンソースマルチタスクビジュアル評価モデル - 画像やビデオの品質および美学評価に無料でデプロイ可能

ホーム

One Align

q-futureによって開発

Q-Alignはマルチタスク視覚評価モデルで、画像品質評価(IQA)、美的評価(IAA)、動画品質評価(VQA)に特化しており、ICML2024で発表されました。

マルチモーダル融合

Transformers

オープンソースライセンス:MIT #マルチモーダル品質評価 #ゼロショット画像分類 #クロスタスク統一スコアリング

ダウンロード数 39.48k

リリース時間 : 12/22/2023

モデル概要

このモデルは統一されたマルチタスク学習フレームワークにより、画像と動画の品質をゼロショットで評価し、品質スコアリングや美的評価など様々なタスクをサポートします。

モデル特徴

マルチタスク統一評価

画像品質評価(IQA)、美的評価(IAA)、動画品質評価(VQA)の3つのタスクを同時にサポート

ゼロショット学習能力

特定のデータセットに対するファインチューニングなしで高品質な評価を実現

クロスドメイン汎化

未見のデータセット（AIGC生成コンテンツ評価など）でも優れた性能を維持

マルチモーダル融合

視覚と言語モダリティ情報を統合して総合評価を実施

モデル能力

画像品質スコアリング

画像美的評価

動画品質スコアリング

ゼロショット評価

マルチタスク学習

使用事例

マルチメディア品質評価

ユーザー生成コンテンツ品質監視

ソーシャルメディアプラットフォーム上の画像/動画品質を自動評価

SPAQデータセットで0.932のスピアマン相関係数を達成

AIGC生成コンテンツ評価

AI生成画像の品質を評価

AGIQAデータセットで0.801のスピアマン相関係数を達成

動画サービス最適化

動画ストリーミング品質監視

動画ストリームの品質をリアルタイム評価

LSVQ_testデータセットで0.886のスピアマン相関係数を達成

🚀 Q-Align (ICML2024) 対応モデル

このモデルはQ-Align (ICML2024) に対応しています。ゼロショット画像分類を行うことができます。

🚀 クイックスタート

AutoModelを使ったクイックスタート

この画像を使って、transformers==4.36.1 でAutoModelのスコアラーを起動しましょう。

import requests
import torch
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("q-future/one-align", trust_remote_code=True, attn_implementation="eager", 
                                             torch_dtype=torch.float16, device_map="auto")

from PIL import Image
url = "https://raw.githubusercontent.com/Q-Future/Q-Align/main/fig/singapore_flyer.jpg"
image = Image.open(requests.get(url,stream=True).raw)
model.score([image], task_="quality", input_="image")
# task_ : quality | aesthetics; # input_: image | video

結果は1.911 (範囲 [1,5]、数値が高いほど良い) となるはずです。

論文は arxiv.org/abs/2312.17090 から参照できます。

📚 シラバス

📊 IQA結果 (スピアマン/ピアソン/ケンドール)

データセット	KonIQ (NR-IQA, 既見)	SPAQ (NR-IQA, 既見)	KADID (FR-IQA, 既見)	LIVE-C (NR-IQA, 未見)	LIVE (FR-IQA, 未見)	CSIQ (FR-IQA, 未見)	AGIQA (AIGC, 未見)
従来のSOTA	0.916/0.928 (MUSIQ, ICCV2021)	0.922/0.919 (LIQE, CVPR2023)	0.934/0.937 (CONTRIQUE, TIP2022)	NA	NA	NA	NA
Q-Align (IQA)	0.937/0.945/0.785	0.931/0.933/0.763	0.934/0.934/0.777	0.887/0.896/0.706	0.874/0.840/0.682	0.845/0.876/0.654	0.731/0.791/0.529
Q-Align (IQA+VQA)	0.944/0.949/0.797	0.931/0.934/0.764	0.952/0.953/0.809	0.892/0.899/0.715	0.874/0.846/0.684	0.852/0.876/0.663	0.739/0.782/0.526
OneAlign (IQA+IAA+VQA)	0.941/0.950/0.791	0.932/0.935/0.766	0.941/0.942/0.791	0.881/0.894/0.699	0.887/0.856/0.699	0.881/0.906/0.699	0.801/0.838/0.602

📊 IAA結果 (スピアマン/ピアソン)

データセット	AVA_test
VILA (CVPR, 2023)	0.774/0.774
LIQE (CVPR, 2023)	0.776/0.763
Aesthetic Predictor (AVA_trainで再学習)	0.721/0.723
Q-Align (IAA)	0.822/0.817
OneAlign (IQA+IAA+VQA)	0.823/0.819

📊 VQA結果 (スピアマン/ピアソン)

データセット	LSVQ_test	LSVQ_1080p	KoNViD-1k	MaxWell_test
SimpleVQA (ACMMM, 2022)	0.867/0.861	0.764/0.803	0.840/0.834	0.720/0.715
FAST-VQA (ECCV 2022)	0.876/0.877	0.779/0.814	0.859/0.855	0.721/0.724
Q-Align (VQA)	0.883/0.882	0.797/0.830	0.865/0.877	0.780/0.782
Q-Align (IQA+VQA)	0.885/0.883	0.802/0.829	0.867/0.880	0.781/0.787
OneAlign (IQA+IAA+VQA)	0.886/0.886	0.803/0.837	0.876/0.888	0.781/0.786