V

Vit Large Patch32 224 In21k

由google開發
該視覺Transformer(ViT)模型在ImageNet-21k數據集上預訓練,適用於圖像分類任務。
下載量 4,943
發布時間 : 3/2/2022

模型概述

視覺Transformer(ViT)是一種基於Transformer架構的視覺模型,通過監督學習在ImageNet-21k數據集上進行預訓練,主要用於圖像分類任務。

模型特點

大規模預訓練
在ImageNet-21k數據集(1400萬張圖像,21,843個類別)上進行預訓練,學習到豐富的圖像表示。
Transformer架構
採用類似BERT的Transformer編碼器架構,將圖像分割為固定大小的塊進行處理。
高分辨率支持
支持224x224像素分辨率的圖像輸入,並可擴展至更高分辨率(如384x384)以獲得更好性能。

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
可用於對圖像進行分類,識別圖像中的對象或場景。
在ImageNet等基準測試中表現優異。
下游任務特徵提取
可作為特徵提取器,為其他計算機視覺任務(如目標檢測、圖像分割)提供基礎特徵。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase