vit-base-patch16-224-in21k_Human_Activity_Recognition開源模型

首頁

Vit Base Patch16 224 In21k Human Activity Recognition

由DunnBC22開發

基於Google Vision Transformer (ViT)微調的人類活動識別模型，用於圖像分類任務

圖像分類

Transformers

英語開源協議:Apache-2.0 #人類活動識別 #ViT微調模型 #多類別圖像分類

下載量 92

發布時間 : 1/24/2023

模型概述

該模型是基於Google的ViT模型微調而成，專門用於識別圖像中的人類不同活動。在評估集上達到了83.81%的準確率。

模型特點

高準確率

在人類活動識別任務上達到83.81%的準確率

基於ViT架構

使用Google Vision Transformer基礎模型進行微調

多指標評估

提供準確率、F1值、召回率和精確率等多種評估指標

模型能力

圖像分類

人類活動識別

多類別分類

使用案例

監控與安防

監控視頻分析

識別監控視頻中的人類活動

可準確識別多種人類活動

健康與運動

運動動作識別

識別健身或運動中的動作

🚀 基於ViT的人類活動識別模型

本模型是基於預訓練模型開發的圖像分類模型，用於識別不同的人類活動。它在微調後，在評估集上取得了良好的性能，可用於相關領域的研究和應用。

🚀 快速開始

本模型是 google/vit-base-patch16-224-in21k 的微調版本。

它在評估集上取得了以下結果：

損失值：0.7403
準確率：0.8381
F1值
- 加權：0.8388
- 微平均：0.8381
- 宏平均：0.8394
召回率
- 加權：0.8381
- 微平均：0.8381
- 宏平均：0.8390
精確率
- 加權：0.8421
- 微平均：0.8381
- 宏平均：0.8424

✨ 主要特性

這是一個多分類圖像分類模型，用於識別人類進行不同活動的圖像。

有關該模型的創建方式的更多信息，請查看以下鏈接：https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/blob/main/Computer%20Vision/Image%20Classification/Multiclass%20Classification/Human%20Activity%20Recognition/ViT-Human%20Action_Recogniton.ipynb

📚 詳細文檔

預期用途和限制

本模型旨在展示使用技術解決複雜問題的能力。歡迎您對本模型進行測試和實驗，但需自行承擔風險。

訓練和評估數據

數據集來源：https://www.kaggle.com/datasets/meetnagadia/human-action-recognition-har-dataset

數據集中的示例圖像：

示例圖像

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0002
訓練批次大小：16
評估批次大小：8
隨機種子：42
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
訓練輪數：5

訓練結果

訓練損失	輪數	步數	驗證損失	準確率	加權F1值	微平均F1值	宏平均F1值	加權召回率	微平均召回率	宏平均召回率	加權精確率	微平均精確率	宏平均精確率
1.0814	1.0	630	0.7368	0.7794	0.7795	0.7794	0.7798	0.7794	0.7794	0.7797	0.7896	0.7794	0.7896
0.5149	2.0	1260	0.6439	0.8060	0.8049	0.8060	0.8036	0.8060	0.8060	0.8051	0.8136	0.8060	0.8130
0.3023	3.0	1890	0.7026	0.8254	0.8272	0.8254	0.8278	0.8254	0.8254	0.8256	0.8335	0.8254	0.8345
0.0507	4.0	2520	0.7414	0.8317	0.8342	0.8317	0.8348	0.8317	0.8317	0.8321	0.8427	0.8317	0.8438
0.0128	5.0	3150	0.7403	0.8381	0.8388	0.8381	0.8394	0.8381	0.8381	0.8390	0.8421	0.8381	0.8424