vit-base-patch16-224-in21k-wwwwiiオープンソース画像分類モデル - 高精度な画像分類を無料でサポート

Vit Base Patch16 224 In21k Wwwwii

Zynoviaによって開発

このモデルはGoogleのViTモデルを未知のデータセットでファインチューニングしたバージョンで、主に画像分類タスクに使用されます。

ダウンロード数 22

リリース時間 : 9/3/2022

モデル概要

これはVision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、google/vit-base-patch16-224-in21kをベースにファインチューニングされています。

ViTアーキテクチャベース

Vision Transformerアーキテクチャを使用しており、画像データの処理に適しています

ファインチューニング版

Googleの事前学習済みモデルをベースにファインチューニングされています

中規模

ViT-baseアーキテクチャに基づき、パラメータ規模が適度です

画像分類

特徴抽出

コンピュータビジョン

汎用画像分類

一般的な物体やシーンの分類に使用可能

検証精度58.45%、Top-3精度78.45%

訓練損失	訓練精度	訓練Top-3精度	検証損失	検証精度	検証Top-3精度	エポック
3.4972	0.1475	0.3067	3.0825	0.3240	0.5178	0
2.7352	0.4129	0.6613	2.4838	0.4543	0.6930	1
2.0429	0.6153	0.8315	1.9934	0.5690	0.7550	2
1.4246	0.7672	0.9166	1.6714	0.5876	0.8016	3
0.8976	0.8813	0.9721	1.6144	0.5845	0.7845	4