V

Vit Large Patch16 224

由google開發
基於Transformer架構的大規模圖像分類模型,在ImageNet-21k和ImageNet-1k數據集上預訓練和微調
下載量 188.47k
發布時間 : 3/2/2022

模型概述

視覺Transformer(ViT)是一種基於Transformer編碼器的圖像分類模型,通過將圖像分割為固定大小的塊進行處理。該模型在ImageNet-21k上預訓練,並在ImageNet-1k上微調,適用於圖像分類任務。

模型特點

基於Transformer的視覺處理
將圖像分割為16x16的塊序列,採用類似BERT的Transformer架構處理
大規模預訓練
在包含1400萬張圖像的ImageNet-21k數據集上預訓練
高分辨率支持
支持224x224像素分辨率輸入,更高分辨率(384x384)可獲得更好效果

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
圖像分類
將圖像分類為1000個ImageNet類別
在ImageNet基準測試中表現優異
特徵提取
提取圖像特徵用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase