V

Vit Base Patch16 224

由google開發
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
下載量 4.8M
發布時間 : 3/2/2022

模型概述

視覺變換器(ViT)是一種類似BERT的變換器編碼器模型,通過將圖像分割為固定大小的補丁序列進行處理,適用於圖像分類任務。

模型特點

基於變換器的視覺模型
將圖像處理為補丁序列,利用變換器架構進行高效特徵提取
大規模預訓練
在ImageNet-21k(1400萬圖像,21k類別)上預訓練,具有強大的特徵學習能力
高分辨率處理
支持224x224像素分辨率輸入,能夠捕捉細粒度圖像特徵

模型能力

圖像分類
特徵提取
視覺表示學習

使用案例

通用圖像識別
物體分類
將圖像分類為1000個ImageNet類別之一
在ImageNet驗證集上達到高準確率
特徵提取
提取圖像特徵用於下游任務
可作為其他視覺任務的預訓練模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase