vit-base-patch16-224-in21k-lcbsiオープンソース画像分類モデル - 高精度かつ効率的な画像分類の実現

Vit Base Patch16 224 In21k Lcbsi

polejowskaによって開発

Google Vision Transformer (ViT)アーキテクチャに基づく微調整モデルで、画像分類タスクに適しています

ダウンロード数 33

リリース時間 : 12/14/2022

モデル概要

このモデルはgoogle/vit-base-patch16-224-in21kをベースに微調整したバージョンで、主に画像分類タスクに使用され、評価セットで98.53%の精度を達成しました

高精度

評価セットで98.53%の分類精度を達成

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、自己注意機構で画像を処理

事前学習モデルの微調整

google/vit-base-patch16-224-in21k事前学習モデルをベースに微調整

画像分類

視覚的特徴抽出

コンピュータビジョン

汎用画像分類

入力画像を分類識別

評価精度98.53%

ハイパーパラメータ	値
learning_rate	0.001
train_batch_size	32
eval_batch_size	32
seed	42
gradient_accumulation_steps	4
total_train_batch_size	128
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
lr_scheduler_warmup_ratio	0.1
num_epochs	10