vit-base-patch16-224-in21k_Human_Activity_Recognitionオープンソースモデル

Vit Base Patch16 224 In21k Human Activity Recognition

DunnBC22によって開発

Google Vision Transformer (ViT)をファインチューニングした人間活動認識モデルで、画像分類タスクに使用されます

ダウンロード数 92

リリース時間 : 1/24/2023

モデル概要

このモデルはGoogleのViTモデルをファインチューニングしたもので、画像中のさまざまな人間の活動を識別するために特別に設計されています。評価セットで83.81%の精度を達成しました。

高精度

人間活動認識タスクで83.81%の精度を達成

ViTアーキテクチャベース

Google Vision Transformerベースモデルを使用してファインチューニング

多指標評価

精度、F1値、再現率、適合率など複数の評価指標を提供

画像分類

人間活動認識

多クラス分類

監視とセキュリティ

監視映像分析

監視映像中の人間活動を識別

さまざまな人間活動を正確に識別可能

健康と運動

運動動作認識

フィットネスや運動中の動作を識別

このモデルは、google/vit-base-patch16-224-in21k をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、技術を用いて複雑な問題を解決する能力を示すために作成されました。このモデルをテストや実験に使用することは歓迎しますが、自己責任で行ってください。

データセットからのサンプル画像 Sample Images

訓練時に使用されたハイパーパラメータは以下の通りです。

訓練損失	エポック	ステップ	検証損失	正解率	加重F1	マイクロF1	マクロF1	加重再現率	マイクロ再現率	マクロ再現率	加重精度	マイクロ精度	マクロ精度
1.0814	1.0	630	0.7368	0.7794	0.7795	0.7794	0.7798	0.7794	0.7794	0.7797	0.7896	0.7794	0.7896
0.5149	2.0	1260	0.6439	0.8060	0.8049	0.8060	0.8036	0.8060	0.8060	0.8051	0.8136	0.8060	0.8130
0.3023	3.0	1890	0.7026	0.8254	0.8272	0.8254	0.8278	0.8254	0.8254	0.8256	0.8335	0.8254	0.8345
0.0507	4.0	2520	0.7414	0.8317	0.8342	0.8317	0.8348	0.8317	0.8317	0.8321	0.8427	0.8317	0.8438
0.0128	5.0	3150	0.7403	0.8381	0.8388	0.8381	0.8394	0.8381	0.8381	0.8390	0.8421	0.8381	0.8424