vit-base-patch16-224-in21k-wwwwiiオープンソースビジュアル分類モデル

Vit Base Patch16 224 In21k Wwwwii

Developed by Imene

Google Vision Transformer (ViT)ベースモデルを微調整した視覚分類モデルで、画像分類タスクに適しています

Downloads 21

Release Time : 9/2/2022

Model Overview

このモデルはgoogle/vit-base-patch16-224-in21k事前学習モデルを未知のデータセットで微調整したバージョンで、主に画像分類タスクに使用されます。

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、16x16画像パッチで入力を処理

転移学習

ImageNet-21k事前学習モデルをベースに微調整されており、優れた特徴抽出能力を有する

効率的な分類

検証セットで62.67%の精度と83.49%のTop-3精度を達成

画像分類

視覚的特徴抽出

コンピュータビジョン

汎用画像分類

入力画像を分類識別

検証精度62.67%

訓練損失	訓練精度	訓練Top-3精度	検証損失	検証精度	検証Top-3精度	エポック数
3.6793	0.125	0.2805	3.4078	0.2151	0.4756	0
3.1763	0.3448	0.6265	3.0167	0.4209	0.6640	1
2.7546	0.5419	0.7852	2.6634	0.5326	0.7651	2
2.3537	0.6855	0.8843	2.3971	0.5547	0.7860	3
1.9989	0.7814	0.9279	2.2236	0.5837	0.7907	4
1.6670	0.875	0.9698	2.0757	0.5977	0.7907	5
1.3815	0.9352	0.9890	1.8921	0.6198	0.8174	6
1.1407	0.9651	0.9956	1.7976	0.6244	0.8174	7
0.9451	0.9866	0.9983	1.7227	0.6349	0.8267	8
0.8024	0.9939	0.9997	1.6739	0.6267	0.8349	9