V

Vit Large Patch16 224.orig In21k

由timm開發
基於Vision Transformer(ViT)的圖像分類模型,由Google Research在JAX框架下使用ImageNet-21k預訓練,後移植到PyTorch。適用於特徵提取和微調場景。
下載量 584
發布時間 : 11/17/2023

模型概述

這是一個大型Vision Transformer模型,專門用於圖像分類和特徵提取。模型在ImageNet-21k數據集上進行了預訓練,不包含分類頭,適合作為骨幹網絡用於下游任務的微調。

模型特點

大規模預訓練
在ImageNet-21k大規模數據集上預訓練,具有強大的特徵提取能力
純Transformer架構
完全基於Transformer架構,不使用卷積操作,適合處理全局圖像信息
靈活的特徵提取
可以輸出不同層次的特徵表示,包括池化特徵和非池化序列特徵
高效計算
相對較大的模型規模下仍保持合理的計算量(59.7 GMACs)

模型能力

圖像特徵提取
圖像分類
遷移學習
計算機視覺任務

使用案例

計算機視覺
圖像分類
作為骨幹網絡用於圖像分類任務,可通過微調適應特定分類需求
特徵提取
提取圖像的高級特徵表示,用於下游任務如目標檢測、圖像分割等
遷移學習
利用預訓練權重作為起點,在小規模數據集上進行微調
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase