V

Vit Base Patch16 384 Wi5

由Imene開發
該模型是基於google/vit-base-patch16-384微調的視覺Transformer模型,主要用於圖像分類任務。
下載量 21
發布時間 : 9/6/2022

模型概述

這是一個基於Vision Transformer架構的圖像分類模型,使用patch16-384配置,在特定數據集上進行了微調。

模型特點

高分辨率處理
支持384x384像素的輸入分辨率
高效微調
在基礎模型上進行針對性微調,適應特定任務
混合精度訓練
使用mixed_float16精度進行訓練,平衡精度和效率

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
對輸入圖像進行分類識別
驗證準確率49.12%,Top-3準確率73.02%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase