vit-base-patch16-224-in21k-wwwwwi開源視覺模型

Vit Base Patch16 224 In21k Wwwwwi

由Imene開發

該模型是基於google/vit-base-patch16-224-in21k在未知數據集上微調的視覺Transformer模型，主要用於圖像分類任務。

下載量 21

發布時間 : 9/1/2022

模型概述

這是一個基於Vision Transformer架構的圖像分類模型，經過微調後可用於特定領域的圖像識別任務。

基於Vision Transformer架構

採用先進的Transformer架構處理圖像數據，具有強大的特徵提取能力

預訓練模型微調

基於google/vit-base-patch16-224-in21k預訓練模型進行微調

混合精度訓練

使用mixed_float16精度進行訓練，平衡計算效率和模型精度

圖像分類

特徵提取

遷移學習

計算機視覺

通用圖像分類

可用於對常見物體和場景進行分類識別

在驗證集上達到25.4%的準確率

本模型是 google/vit-base-patch16-224-in21k 在未知數據集上的微調版本。它在評估集上取得了以下結果：

此部分暫未提供具體的快速開始內容，不過你可以基於該模型的微調情況，參考原模型 google/vit-base-patch16-224-in21k 的使用方法來初步使用本模型。

更多信息待補充。

更多信息待補充。

更多信息待補充。

訓練期間使用了以下超參數：

優化器：{'inner_optimizer': {'class_name': 'AdamWeightDecay', 'config': {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 3e-05, 'decay_steps': 4920, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}}, 'dynamic': True, 'initial_scale': 32768.0, 'dynamic_growth_steps': 2000}
訓練精度：混合浮點16位

訓練損失	訓練準確率	訓練前3準確率	驗證損失	驗證準確率	驗證前3準確率	訓練輪數
5.3476	0.0283	0.0716	5.1306	0.0483	0.1240	0
4.9357	0.0914	0.2057	4.7998	0.1158	0.2385	1
4.6155	0.1641	0.3230	4.5616	0.1430	0.2891	2
4.3325	0.2269	0.4188	4.3480	0.1722	0.3391	3
4.0702	0.2915	0.4984	4.1662	0.2042	0.3886	4
3.8262	0.3638	0.5758	4.0416	0.2296	0.4067	5
3.6117	0.4258	0.6415	3.9451	0.2329	0.4234	6
3.4324	0.4855	0.6956	3.8690	0.2499	0.4397	7
3.2991	0.5320	0.7376	3.8351	0.2553	0.4359	8
3.2187	0.5652	0.7611	3.8221	0.2540	0.4409	9