V

Vit Large Patch32 384

由google開發
該視覺Transformer(ViT)模型先在ImageNet-21k數據集上預訓練,後在ImageNet數據集上微調,適用於圖像分類任務。
下載量 118.37k
發布時間 : 3/2/2022

模型概述

該模型是一種類似BERT的Transformer編碼器模型,採用監督方式在ImageNet-21k大規模圖像集上進行預訓練,隨後在更高分辨率的ImageNet數據集上微調。

模型特點

大規模預訓練
模型先在ImageNet-21k數據集(1400萬張圖像,21,843個類別)上預訓練,學習到圖像的內在表徵。
高分辨率微調
在ImageNet數據集上以384x384分辨率進行微調,提升分類性能。
Transformer編碼器
採用類似BERT的Transformer編碼器結構,處理圖像為固定尺寸的序列塊併線性嵌入。

模型能力

圖像分類
特徵提取

使用案例

圖像分類
ImageNet分類
將圖像分類為1,000個ImageNet類別之一。
在ImageNet數據集上表現出色。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase