V

Vit Base Patch16 384

由google開發
Vision Transformer(ViT)是一種基於Transformer架構的圖像分類模型,先在ImageNet-21k上預訓練,後在ImageNet上微調。
下載量 30.30k
發布時間 : 3/2/2022

模型概述

該模型通過將圖像分割為固定大小的塊並應用Transformer編碼器進行圖像分類,支持1,000個ImageNet類別。

模型特點

基於Transformer的圖像處理
將圖像分割為16x16的塊並應用Transformer編碼器,突破了傳統CNN在圖像處理中的侷限。
大規模預訓練
先在ImageNet-21k(1400萬圖像)上預訓練,後在ImageNet(100萬圖像)上微調,學習到豐富的圖像特徵表示。
高分辨率微調
微調時使用384x384分辨率,相比預訓練的224x224分辨率能捕捉更精細的圖像特徵。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
將輸入圖像分類為1,000個ImageNet類別之一。
在ImageNet數據集上表現出色。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase