cvt-13-384-in22k-FV-finetuned-memesオープンソース画像分類モデル

Cvt 13 384 In22k FV Finetuned Memes

jayantaによって開発

microsoft/cvt-13-384-22kをベースに画像フォルダデータセットでファインチューニングした画像分類モデルで、評価セットで83.46%の精度を達成

ダウンロード数 11

リリース時間 : 10/21/2022

モデル概要

このモデルはマイクロソフトCVTアーキテクチャのバリアントで、画像分類タスク向けに特別にファインチューニングされており、特にスタンプ分類シナリオに適しています。

高精度

画像分類タスクで83.46%の精度を達成

CVTアーキテクチャベース

マイクロソフトCVTビジョントランスフォーマーアーキテクチャを採用し、強力な特徴抽出能力を有する

ファインチューニング最適化

特定データセットで詳細にチューニングされ、特定シナリオでのパフォーマンスを向上

画像分類

特徴抽出

視覚的パターン認識

コンテンツ分類

スタンプ分類

インターネットスタンプの自動分類

精度83.46%

コンテンツモデレーション

画像コンテンツ認識

画像内の特定コンテンツカテゴリを識別

このモデルは、microsoft/cvt-13-384-22k を imagefolder データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	正解率	適合率	再現率	F1スコア
1.4066	0.99	20	1.2430	0.5124	0.5141	0.5124	0.4371
1.0813	1.99	40	0.8244	0.6893	0.6834	0.6893	0.6616
0.8392	2.99	60	0.6334	0.7612	0.7670	0.7612	0.7570
0.7065	3.99	80	0.5819	0.7767	0.7799	0.7767	0.7672
0.5751	4.99	100	0.5365	0.8176	0.8216	0.8176	0.8130
0.4896	5.99	120	0.4943	0.8308	0.8257	0.8308	0.8265
0.4487	6.99	140	0.5399	0.8107	0.8069	0.8107	0.8054
0.4349	7.99	160	0.4892	0.8300	0.8285	0.8300	0.8273
0.43	8.99	180	0.4984	0.8454	0.8465	0.8454	0.8426
0.4372	9.99	200	0.5573	0.8192	0.8221	0.8192	0.8157
0.3994	10.99	220	0.5158	0.8300	0.8284	0.8300	0.8281
0.3883	11.99	240	0.5495	0.8354	0.8317	0.8354	0.8314
0.406	12.99	260	0.5298	0.8284	0.8285	0.8284	0.8246
0.3355	13.99	280	0.5401	0.8393	0.8346	0.8393	0.8357
0.395	14.99	300	0.5915	0.8308	0.8278	0.8308	0.8261
0.3612	15.99	320	0.5852	0.8408	0.8378	0.8408	0.8368
0.3765	16.99	340	0.5509	0.8385	0.8351	0.8385	0.8356
0.3688	17.99	360	0.5668	0.8416	0.8398	0.8416	0.8387
0.3503	18.99	380	0.5626	0.8393	0.8371	0.8393	0.8365
0.3611	19.99	400	0.5595	0.8346	0.8327	0.8346	0.8322