V

Vit Large Patch16 224 In21k

由google開發
基於ImageNet-21k數據集預訓練的視覺Transformer模型,適用於圖像特徵提取和下游任務微調。
下載量 92.63k
發布時間 : 3/2/2022

模型概述

該模型是一種類似於BERT的Transformer編碼器,通過監督學習在ImageNet-21k數據集上預訓練而成,主要用於圖像特徵提取和分類任務。

模型特點

基於ImageNet-21k預訓練
在包含1400萬張圖像和21,843個類別的ImageNet-21k數據集上預訓練,具有強大的特徵提取能力。
16x16圖像塊分割
將圖像分割為固定大小的16x16像素塊,並通過線性嵌入輸入Transformer編碼器。
包含預訓練池化器
模型包含預訓練的池化器,可直接用於下游任務的特徵提取,無需從頭訓練。

模型能力

圖像特徵提取
圖像分類
下游任務微調

使用案例

計算機視覺
圖像分類
在預訓練模型基礎上添加線性層,用於特定圖像分類任務。
在ImageNet等基準數據集上表現出色。
特徵提取
提取圖像的特徵表示,用於其他視覺任務如目標檢測、圖像分割等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase