V

Vit Base Patch16 224 In21k

由google開發
基於ImageNet-21k數據集預訓練的視覺Transformer模型,用於圖像分類任務。
下載量 2.2M
發布時間 : 3/2/2022

模型概述

該視覺Transformer(ViT)模型基於ImageNet-21k數據集以224x224分辨率進行預訓練,採用類似BERT的Transformer編碼器架構,適用於圖像分類等視覺任務。

模型特點

基於Transformer的視覺模型
將Transformer架構成功應用於計算機視覺任務,突破了傳統CNN的限制。
大規模預訓練
在包含1400萬張圖像的ImageNet-21k數據集上進行預訓練,學習到豐富的視覺特徵表示。
圖像分塊處理
將圖像分割為16x16的塊進行處理,有效降低了計算複雜度。

模型能力

圖像特徵提取
圖像分類
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於對圖像進行分類,識別圖像中的主要對象或場景。
下游任務特徵提取
可作為特徵提取器,為其他視覺任務(如目標檢測、圖像分割)提供基礎特徵。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase