V

Vit Base Patch16 384 Wi3

由Imene開發
基於Google Vision Transformer (ViT)架構的微調模型,適用於圖像分類任務
下載量 21
發布時間 : 9/5/2022

模型概述

該模型是基於google/vit-base-patch16-384預訓練模型在未知數據集上微調的版本,主要用於圖像分類任務。

模型特點

高分辨率處理能力
支持384x384像素輸入分辨率,適合處理高分辨率圖像
高效微調
基於預訓練ViT模型微調,在特定任務上表現良好
混合精度訓練
使用mixed_float16精度訓練,兼顧訓練效率和模型精度

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
對輸入圖像進行分類識別
驗證集準確率61.95%,Top-3準確率82.98%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase