V

Vit Base Patch32 224.orig In21k

由timm開發
基於Vision Transformer (ViT)的圖像分類模型,在ImageNet-21k上預訓練,適用於特徵提取和微調場景。
下載量 438
發布時間 : 11/17/2023

模型概述

該模型是一個基於Vision Transformer架構的圖像分類模型,由論文作者在ImageNet-21k數據集上使用JAX預訓練,後移植到PyTorch。模型不包含分類頭,適合用於特徵提取和下游任務的微調。

模型特點

基於Transformer架構
採用Vision Transformer架構,將圖像分割為32x32的patch進行處理,適用於大規模圖像識別任務。
預訓練權重
在ImageNet-21k大規模數據集上預訓練,具有強大的特徵提取能力。
靈活的特徵提取
模型不包含分類頭,可以直接用於特徵提取或下游任務的微調。

模型能力

圖像特徵提取
圖像分類
遷移學習

使用案例

計算機視覺
圖像分類
使用預訓練模型進行圖像分類任務,或在其基礎上微調特定領域的分類器。
特徵提取
提取圖像的高級特徵表示,用於下游任務如目標檢測、圖像檢索等。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase