vit-base-patch16-224-in21k-iiiiオープンソース画像分類モデル

Vit Base Patch16 224 In21k Iiii

Imeneによって開発

このモデルはgoogle/vit-base-patch16-224-in21kをファインチューニングしたビジョントランスフォーマーモデルで、主に画像分類タスクに使用されます。

ダウンロード数 21

リリース時間 : 9/2/2022

モデル概要

これはVision Transformerアーキテクチャに基づく画像分類モデルで、特定のデータセットでファインチューニングされており、画像認識と分類タスクに使用できます。

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、自己注意メカニズムを使用して画像データを処理します

転移学習

事前学習済みのvit-base-patch16-224-in21kモデルを基にファインチューニングされています

混合精度トレーニング

mixed_float16精度を使用してトレーニングを行い、トレーニング効率を向上させます

画像分類

特徴抽出

コンピュータビジョン

汎用画像分類

入力画像を分類識別します

検証セットで39.07%の精度を達成

訓練損失	訓練精度	訓練Top-3精度	検証損失	検証精度	検証Top-3精度	エポック
3.8068	0.0843	0.2108	3.6116	0.1721	0.3593	0
3.4497	0.2735	0.4840	3.3654	0.2779	0.4953	1
3.1913	0.3991	0.6314	3.1839	0.3512	0.5977	2
3.0017	0.4878	0.7311	3.0867	0.3872	0.6233	3
2.8947	0.5439	0.7916	3.0482	0.3907	0.6302	4