V

Vit Large Patch16 384

由google開發
視覺變換器(ViT)是一種基於變換器架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
下載量 161.29k
發布時間 : 3/2/2022

模型概述

該模型使用變換器編碼器結構,將圖像分割為固定大小的塊進行處理,主要用於圖像分類任務。

模型特點

基於變換器的視覺模型
將自然語言處理中成功的變換器架構應用於計算機視覺任務
大規模預訓練
先在ImageNet-21k(1400萬圖像)上預訓練,後在ImageNet(100萬圖像)上微調
高分辨率處理
微調階段使用384x384分辨率,比預訓練的224x224分辨率更高

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
將圖像分類為1000個ImageNet類別之一
在ImageNet基準測試上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase