V

Vit Huge Patch14 224.orig In21k

由timm開發
基於Vision Transformer (ViT)架構的大規模圖像特徵提取模型,在ImageNet-21k數據集上預訓練
下載量 3,214
發布時間 : 12/22/2022

模型概述

這是一個不含分類頭的Vision Transformer模型,主要用於圖像特徵提取和下游任務微調。模型採用14x14的patch尺寸和224x224的輸入分辨率。

模型特點

大規模預訓練
在包含21000類的ImageNet-21k數據集上預訓練,具有強大的特徵提取能力
Transformer架構
採用純Transformer架構處理圖像,無需傳統CNN的卷積操作
高分辨率處理
支持224x224像素的輸入分辨率,14x14的patch尺寸
靈活應用
可作為特徵提取器或用於下游任務微調,支持移除分類頭

模型能力

圖像特徵提取
圖像分類
遷移學習
計算機視覺任務

使用案例

計算機視覺
圖像分類
用於21000類的大規模圖像分類任務
特徵提取
提取圖像特徵用於下游任務如目標檢測、圖像分割等
遷移學習
在特定領域數據集上微調模型,適應特定任務需求
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase