vit_base_patch16_224.orig_in21k開源圖像分類模型

首頁

Vit Base Patch16 224.orig In21k

由timm開發

基於Vision Transformer的圖像分類模型，在ImageNet-21k上預訓練，適用於特徵提取和微調

圖像分類

Transformers

開源協議:Apache-2.0 #圖像特徵提取 #ViT骨幹網絡 #ImageNet-21k預訓練

下載量 23.07k

發布時間 : 11/16/2023

模型概述

這是一個基於Vision Transformer架構的圖像分類模型，由Google Research團隊開發並在ImageNet-21k數據集上預訓練。模型不包含分類頭，適合作為特徵提取骨幹網絡或進行下游任務微調。

模型特點

大規模預訓練

在ImageNet-21k大規模數據集上預訓練，具有強大的特徵提取能力

Transformer架構

採用純Transformer架構處理圖像，將圖像分割為16x16的patch進行處理

靈活應用

可作為特徵提取骨幹網絡或進行下游任務微調，支持移除分類頭

模型能力

圖像特徵提取

圖像分類

遷移學習

使用案例

計算機視覺

圖像分類

用於圖像分類任務，可微調模型以適應特定分類需求

特徵提取

作為骨幹網絡提取圖像特徵，用於下游任務如目標檢測、圖像分割等

🚀 vit_base_patch16_224.orig_in21k 模型卡

這是一個視覺變換器（ViT）圖像分類模型。由論文作者在JAX中基於ImageNet - 21k數據集進行預訓練，並由Ross Wightman將其移植到PyTorch。該模型沒有分類頭，僅適用於特徵提取和微調。

🚀 快速開始

本模型是一個視覺變換器（ViT）圖像分類模型，在圖像特徵提取和分類任務中表現出色。它基於ImageNet - 21k數據集進行預訓練，可用於圖像分類和圖像嵌入提取等任務。

✨ 主要特性

模型類型：圖像分類/特徵骨幹網絡
模型統計信息：
- 參數數量（M）：85.8
- GMACs：16.9
- 激活值（M）：16.5
- 圖像尺寸：224 x 224
相關論文：
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale：https://arxiv.org/abs/2010.11929v2
數據集：ImageNet - 21k
原始代碼庫：https://github.com/google-research/vision_transformer

📦 安裝指南

文檔未提及安裝步驟，跳過該章節。

💻 使用示例

基礎用法

圖像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_patch16_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

高級用法

圖像嵌入提取

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_patch16_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 詳細文檔

可在timm 模型結果中探索該模型的數據集和運行時指標。

📄 許可證

本項目採用Apache - 2.0許可證。

🔗 引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}