vit-base-patch16-224-in21k-wwwwwiオープンソースビジュアルモデル

Vit Base Patch16 224 In21k Wwwwwi

Imeneによって開発

このモデルはgoogle/vit-base-patch16-224-in21kを未知のデータセットでファインチューニングしたVision Transformerモデルで、主に画像分類タスクに使用されます。

ダウンロード数 21

リリース時間 : 9/1/2022

モデル概要

これはVision Transformerアーキテクチャに基づく画像分類モデルで、ファインチューニング後に特定分野の画像認識タスクに使用可能です。

Vision Transformerアーキテクチャベース

先進的なTransformerアーキテクチャを使用して画像データを処理し、強力な特徴抽出能力を有する

事前学習モデルのファインチューニング

google/vit-base-patch16-224-in21k事前学習モデルを基にファインチューニング

混合精度トレーニング

mixed_float16精度を使用してトレーニングし、計算効率とモデル精度のバランスを取る

画像分類

特徴抽出

転移学習

コンピュータビジョン

汎用画像分類

一般的な物体やシーンの分類認識に使用可能

検証セットで25.4%の精度を達成

このモデルは、google/vit-base-patch16-224-in21k を未知のデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

訓練中に以下のハイパーパラメータが使用されました。

オプティマイザー: {'inner_optimizer': {'class_name': 'AdamWeightDecay', 'config': {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 3e-05, 'decay_steps': 4920, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}}, 'dynamic': True, 'initial_scale': 32768.0, 'dynamic_growth_steps': 2000}
訓練精度: mixed_float16

訓練損失	訓練精度	訓練Top-3精度	検証損失	検証精度	検証Top-3精度	エポック数
5.3476	0.0283	0.0716	5.1306	0.0483	0.1240	0
4.9357	0.0914	0.2057	4.7998	0.1158	0.2385	1
4.6155	0.1641	0.3230	4.5616	0.1430	0.2891	2
4.3325	0.2269	0.4188	4.3480	0.1722	0.3391	3
4.0702	0.2915	0.4984	4.1662	0.2042	0.3886	4
3.8262	0.3638	0.5758	4.0416	0.2296	0.4067	5
3.6117	0.4258	0.6415	3.9451	0.2329	0.4234	6
3.4324	0.4855	0.6956	3.8690	0.2499	0.4397	7
3.2991	0.5320	0.7376	3.8351	0.2553	0.4359	8
3.2187	0.5652	0.7611	3.8221	0.2540	0.4409	9