V

Vit Huge Patch14 224 In21k

由google開發
基於ImageNet-21k預訓練的視覺Transformer模型,採用超大尺寸架構,適用於圖像分類等視覺任務。
下載量 47.78k
發布時間 : 3/2/2022

模型概述

該視覺Transformer(ViT)模型在ImageNet-21k數據集上預訓練,通過將圖像分割為固定大小的塊序列進行處理,適用於提取圖像特徵用於下游任務。

模型特點

大規模預訓練
在ImageNet-21k(1400萬張圖像,21,843個類別)上進行預訓練,學習到豐富的圖像特徵表示。
Transformer架構
採用類似BERT的Transformer編碼器架構處理圖像塊序列,突破傳統CNN的限制。
高分辨率處理
支持224x224像素分辨率輸入,通過16x16的塊分割方式處理圖像。

模型能力

圖像特徵提取
圖像分類

使用案例

計算機視覺
圖像分類
可用於對圖像進行分類,識別圖像中的主要對象或場景。
在ImageNet等基準測試中表現優異(具體數值未提供)。
特徵提取
可作為特徵提取器用於下游視覺任務,如目標檢測、圖像分割等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase