vit_base_r50_s16_224.orig_in21k開源圖像分類模型 - 適用於特徵提取和微調場景

首頁

Vit Base R50 S16 224.orig In21k

由timm開發

結合ResNet與Vision Transformer的混合圖像分類模型，基於ImageNet-21k預訓練，適用於特徵提取和微調場景。

圖像分類

Transformers

開源協議:Apache-2.0 #混合ViT-ResNet架構 #ImageNet-21k預訓練 #無分類頭特徵提取

下載量 876

發布時間 : 12/23/2022

模型概述

該模型是一個結合了ResNet與Vision Transformer（ViT）的混合圖像分類模型，由論文作者在JAX框架下基於ImageNet-21k預訓練，後移植到PyTorch。不含分類頭，適用於特徵提取和微調。

模型特點

混合架構

結合ResNet與Vision Transformer的優勢，提升圖像特徵提取能力。

預訓練模型

基於ImageNet-21k大規模數據集預訓練，具有強大的特徵提取能力。

靈活應用

不含分類頭，適用於特徵提取和微調場景。

模型能力

圖像分類

圖像特徵提取

使用案例

計算機視覺

圖像分類

使用該模型進行圖像分類任務，支持多種類別識別。

特徵提取

提取圖像的高層特徵，用於後續任務如目標檢測、圖像分割等。

🚀 vit_base_r50_s16_224.orig_in21k模型卡

這是一個基於ResNet - Vision Transformer (ViT)的混合圖像分類模型。由論文作者在JAX中基於ImageNet - 21k數據集進行預訓練，並由Ross Wightman將其移植到PyTorch。該模型沒有分類頭，僅適用於特徵提取和微調。

🚀 快速開始

本模型是一個強大的圖像分類/特徵提取骨幹網絡，可用於圖像分類和特徵提取任務。下面將介紹具體的使用方法。

✨ 主要特性

模型類型：圖像分類/特徵骨幹網絡
模型統計信息：
- 參數數量（百萬）：97.9
- 吉兆次乘法累加運算（GMACs）：20.9
- 激活值數量（百萬）：27.9
- 圖像尺寸：224 x 224
相關論文：
- An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
訓練數據集：ImageNet - 21k
原始代碼庫：https://github.com/google - research/vision_transformer

📦 安裝指南

文檔未提及安裝步驟，此處跳過。

💻 使用示例

基礎用法

圖像分類

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model('vit_base_r50_s16_224.orig_in21k', pretrained=True)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # unsqueeze single image into batch of 1

top5_probabilities, top5_class_indices = torch.topk(output.softmax(dim=1) * 100, k=5)

圖像嵌入

from urllib.request import urlopen
from PIL import Image
import timm

img = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))

model = timm.create_model(
    'vit_base_r50_s16_224.orig_in21k',
    pretrained=True,
    num_classes=0,  # remove classifier nn.Linear
)
model = model.eval()

# get model specific transforms (normalization, resize)
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)

output = model(transforms(img).unsqueeze(0))  # output is (batch_size, num_features) shaped tensor

# or equivalently (without needing to set num_classes=0)

output = model.forward_features(transforms(img).unsqueeze(0))
# output is unpooled, a (1, 197, 768) shaped tensor

output = model.forward_head(output, pre_logits=True)
# output is a (1, num_features) shaped tensor

📚 詳細文檔

可在timm 模型結果中探索本模型的數據集和運行時指標。

📄 許可證

本項目採用Apache - 2.0許可證。

📚 引用

@article{dosovitskiy2020vit,
  title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
  author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and  Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
  journal={ICLR},
  year={2021}
}

@misc{rw2019timm,
  author = {Ross Wightman},
  title = {PyTorch Image Models},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  doi = {10.5281/zenodo.4414861},
  howpublished = {\url{https://github.com/huggingface/pytorch-image-models}}
}