ViTForImageClassificationオープンソース画像分類モデル - CIFAR10をベースにファインチューニングして正解率96.78%に達成

Vitforimageclassification

Developed by Andron00e

このモデルはgoogle/vit-base-patch16-224-in21kをCIFAR10データセットでファインチューニングした画像分類モデルで、精度は96.78%です。

Downloads 43

Release Time : 11/28/2023

Model Overview

Vision Transformer (ViT) 画像分類モデルで、汎用画像分類タスクに適しています。

高精度

CIFAR10データセットで96.78%の分類精度を達成

Transformerアーキテクチャベース

Vision Transformerアーキテクチャを採用し、自己注意機構で画像を処理

事前学習とファインチューニング

大規模事前学習モデルを基にファインチューニングし、特定分類タスクに適応

画像分類

特徴抽出

コンピュータビジョン

汎用画像分類

一般的な物体画像を分類・識別

CIFAR10で96.78%の精度を達成

画像理解

下流タスク向けに画像特徴を抽出

このモデルは、google/vit-base-patch16-224-in21k を CIFAR10 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは画像分類タスクに使用できます。以下の情報を参考に、モデルの詳細やトレーニングデータなどを確認できます。

モデルのすべてのパラメータを直接調整します。

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失	正確度
0.2995	0.27	100	0.3419	0.9108
0.2289	0.53	200	0.2482	0.9288
0.1811	0.8	300	0.2139	0.9357
0.0797	1.07	400	0.1813	0.946
0.1128	1.33	500	0.1741	0.9452
0.086	1.6	600	0.1659	0.9513
0.0815	1.87	700	0.1468	0.9547
0.048	2.13	800	0.1393	0.9592
0.021	2.4	900	0.1399	0.9603
0.0271	2.67	1000	0.1334	0.9642
0.0231	2.93	1100	0.1228	0.9658
0.0101	3.2	1200	0.1229	0.9673
0.0041	3.47	1300	0.1189	0.9675
0.0043	3.73	1400	0.1165	0.9683
0.0067	4.0	1500	0.1145	0.9697