google-vit-base-patch16-224開源卡通人臉識別模型

首頁

Google Vit Base Patch16 224 Cartoon Face Recognition

由jayanta開發

基於Google Vision Transformer (ViT)架構微調的卡通人臉識別模型，在圖像分類任務上表現優異

人臉相關

Transformers

開源協議:Apache-2.0 #卡通人臉識別 #高精度分類 #ViT微調

下載量 62

發布時間 : 1/18/2023

模型概述

該模型是基於google/vit-base-patch16-224在圖像文件夾數據集上微調的版本，專門用於卡通人臉識別任務。在評估集上取得了90%以上的準確率。

模型特點

高精度識別

在卡通人臉識別任務上達到90.05%的準確率和90.66%的精確率

基於ViT架構

採用Vision Transformer架構，具有強大的圖像特徵提取能力

高效微調

在基礎模型上進行微調，訓練效率高，資源消耗相對較低

模型能力

卡通人臉識別

圖像分類

特徵提取

使用案例

娛樂應用

卡通角色識別

識別動畫或漫畫中的角色

準確率90.05%

表情分類

對卡通人物的表情進行分類識別

安全驗證

卡通頭像驗證

驗證用戶上傳的卡通頭像是否符合要求

🚀 谷歌視覺變換器基礎模型（ViT-Base）卡通人臉識別

該模型是基於圖像文件夾數據集對 google/vit-base-patch16-224 進行微調後的版本。它在評估集上取得了以下成績：

損失值：0.3707
準確率：0.9005
精確率：0.9066
召回率：0.9005
F1值：0.8984

📚 詳細文檔

模型描述

待補充更多信息。

預期用途與限制

待補充更多信息。

訓練和評估數據

待補充更多信息。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.00012
訓練批次大小：64
評估批次大小：64
隨機種子：42
梯度累積步數：4
總訓練批次大小：256
優化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型：線性
學習率調度器熱身比例：0.1
訓練輪數：20

訓練結果

訓練損失	輪數	步數	驗證損失	準確率	精確率	召回率	F1值
無記錄	0.89	6	0.5459	0.8611	0.8683	0.8611	0.8577
0.0812	1.89	12	0.4703	0.8796	0.8833	0.8796	0.8764
0.0812	2.89	18	0.4430	0.8935	0.8969	0.8935	0.8906
0.0307	3.89	24	0.4045	0.8819	0.8849	0.8819	0.8767
0.0091	4.89	30	0.3672	0.9005	0.9025	0.9005	0.8980
0.0091	5.89	36	0.3841	0.9028	0.9125	0.9028	0.9011
0.0043	6.89	42	0.3926	0.9005	0.9073	0.9005	0.8972
0.0043	7.89	48	0.3786	0.8958	0.9005	0.8958	0.8931
0.0031	8.89	54	0.3791	0.9028	0.9091	0.9028	0.9007
0.002	9.89	60	0.3677	0.9028	0.9106	0.9028	0.9001
0.002	10.89	66	0.3740	0.9028	0.9099	0.9028	0.9007
0.0027	11.89	72	0.3869	0.8981	0.9043	0.8981	0.8956
0.0027	12.89	78	0.3801	0.8981	0.9021	0.8981	0.8954
0.004	13.89	84	0.3674	0.9051	0.9113	0.9051	0.9028
0.0024	14.89	90	0.3620	0.9051	0.9096	0.9051	0.9027
0.0024	15.89	96	0.3670	0.9028	0.9089	0.9028	0.9006
0.0021	16.89	102	0.3827	0.9005	0.9065	0.9005	0.8980
0.0021	17.89	108	0.3748	0.8981	0.9049	0.8981	0.8958
0.0022	18.89	114	0.3825	0.9028	0.9101	0.9028	0.9006
0.0019	19.89	120	0.3707	0.9005	0.9066	0.9005	0.8984

框架版本

Transformers 4.24.0.dev0
Pytorch 1.11.0+cu102
Datasets 2.6.1
Tokenizers 0.13.1

📄 許可證

本模型採用 Apache-2.0 許可證。

屬性	詳情
模型類型	基於谷歌視覺變換器基礎模型（ViT-Base）微調的卡通人臉識別模型
訓練數據	圖像文件夾數據集
評估指標	損失值、準確率、精確率、召回率、F1值