vit_large_patch16_224.orig_in21k開源圖像分類模型

首頁

Vit Large Patch16 224.orig In21k

由timm開發

基於Vision Transformer（ViT）的圖像分類模型，由Google Research在JAX框架下使用ImageNet-21k預訓練，後移植到PyTorch。適用於特徵提取和微調場景。

圖像分類

Transformers

開源協議:Apache-2.0 #ImageNet-21k預訓練 #ViT骨幹網絡 #無分類頭設計

下載量 584

發布時間 : 11/17/2023

模型概述

這是一個大型Vision Transformer模型，專門用於圖像分類和特徵提取。模型在ImageNet-21k數據集上進行了預訓練，不包含分類頭，適合作為骨幹網絡用於下游任務的微調。

模型特點

大規模預訓練

在ImageNet-21k大規模數據集上預訓練，具有強大的特徵提取能力

純Transformer架構

完全基於Transformer架構，不使用卷積操作，適合處理全局圖像信息

靈活的特徵提取

可以輸出不同層次的特徵表示，包括池化特徵和非池化序列特徵

高效計算

相對較大的模型規模下仍保持合理的計算量（59.7 GMACs）

模型能力

圖像特徵提取

圖像分類

遷移學習

計算機視覺任務

使用案例

計算機視覺

圖像分類

作為骨幹網絡用於圖像分類任務，可通過微調適應特定分類需求

特徵提取

提取圖像的高級特徵表示，用於下游任務如目標檢測、圖像分割等

遷移學習

利用預訓練權重作為起點，在小規模數據集上進行微調

🚀 vit_large_patch16_224.orig_in21k模型卡片

這是一個視覺變換器（ViT）圖像分類模型。由論文作者在JAX中基於ImageNet - 21k數據集進行預訓練，再由Ross Wightman將其移植到PyTorch。該模型沒有分類頭，僅適用於特徵提取和微調。

🚀 快速開始

本模型可用於圖像分類和提取圖像嵌入特徵，具體使用方法見下方使用示例。

✨ 主要特性

模型類型：圖像分類/特徵骨幹網絡
模型統計信息：
- 參數數量（百萬）：303.3
- 吉兆次乘法累加運算（GMACs）：59.7
- 激活值數量（百萬）：43.8
- 圖像尺寸：224 x 224
相關論文：
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
數據集：ImageNet - 21k
原始代碼庫：https://github.com/google-research/vision_transformer

📦 安裝指南

文檔未提及安裝步驟，可參考timm庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

圖像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_large_patch16_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

圖像嵌入

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_large_patch16_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 1024) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 詳細文檔

可在timm的模型結果頁面中查看該模型的數據集和運行時指標。

📄 許可證

本模型採用Apache - 2.0許可證。

📚 引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}