V

Vit Base Patch16 224

由optimum開發
基於Transformer架構的圖像分類模型,在ImageNet-21k和ImageNet-1k數據集上預訓練和微調
下載量 40
發布時間 : 6/23/2022

模型概述

ViT是一種將圖像分割為16x16塊並通過Transformer編碼器處理的視覺模型,主要用於圖像分類任務

模型特點

基於Transformer的視覺處理
將圖像處理為類似NLP任務的token序列,創新性地應用Transformer架構處理視覺數據
大規模預訓練
在ImageNet-21k(1400萬圖像,21k類別)上預訓練,在ImageNet-1k(100萬圖像,1k類別)上微調
高分辨率支持
支持224x224和384x384分辨率輸入,更高分辨率可獲得更好效果

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
通用圖像分類
將圖像分類為1000個ImageNet類別
在ImageNet驗證集上達到優秀準確率
視覺特徵提取
提取圖像特徵用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase