vit-base-patch16-224-wi2オープンソースビジュアルモデル - 無料でデプロイして効率的に画像分類タスクを完了

Vit Base Patch16 224 Wi2

Developed by Imene

google/vit-base-patch16-224をファインチューニングしたVision Transformerモデルで、画像分類タスクに適しています

Downloads 21

Release Time : 9/10/2022

Model Overview

このモデルはVision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、特定のデータセットでのパフォーマンスを向上させるためにファインチューニングされています。

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、自己注意メカニズムを使用して画像を処理します

混合精度トレーニング

mixed_float16精度を使用してトレーニングを行い、計算効率を最適化します

AdamWオプティマイザー

AdamWeightDecayオプティマイザーと多項式学習率減衰戦略を組み合わせて使用します

画像分類

特徴抽出

コンピュータビジョン

汎用画像分類

入力画像を分類予測します

検証セットで24.91%の精度を達成しました

このモデルは、未知のデータセットでgoogle/vit-base-patch16-224をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、google/vit-base-patch16-224 を未知のデータセットでファインチューニングしたものです。評価セットにおける結果は以下の通りです。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

訓練中に以下のハイパーパラメータが使用されました。

オプティマイザ: {'inner_optimizer': {'class_name': 'AdamWeightDecay', 'config': {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 0.0003, 'decay_steps': 1750, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.001}}, 'dynamic': True, 'initial_scale': 32768.0, 'dynamic_growth_steps': 2000}
訓練精度: mixed_float16

訓練損失	訓練精度	訓練Top-5精度	検証損失	検証精度	検証Top-5精度	エポック
4.4859	0.0195	0.0579	4.2995	0.0368	0.0865	0
4.1729	0.0355	0.0987	4.0916	0.0472	0.1266	1
3.9541	0.0666	0.1641	3.8050	0.0781	0.2035	2
3.5823	0.1247	0.2615	3.4015	0.1429	0.2950	3
3.0156	0.1913	0.3987	3.0598	0.1880	0.3916	4
2.4618	0.3077	0.5572	2.9869	0.2056	0.4129	5
1.8979	0.4541	0.7165	2.9507	0.2298	0.4425	6
1.2075	0.6914	0.8886	3.0106	0.2394	0.4425	7
0.6026	0.9097	0.9810	3.0739	0.2428	0.4413	8
0.3098	0.9821	0.9971	3.0737	0.2491	0.4476	9