pvt-tiny-224開源圖像分類模型 - 免費部署精準完成圖像分類任務

首頁

Pvt Tiny 224

由Xrenya開發

金字塔視覺變換器（PVT）是一種基於變換器架構的視覺模型，專為圖像分類任務設計。

圖像分類

Transformers

開源協議:Apache-2.0 #圖像分類 #金字塔結構 #無卷積骨幹

下載量 25

發布時間 : 3/25/2023

模型概述

該模型在ImageNet-1K數據集上進行了預訓練和微調，能夠將圖像分類為1000個類別。它採用金字塔結構減少計算量，適合密集預測任務。

模型特點

金字塔結構

採用漸進式縮小金字塔減少計算量，提高對大特徵圖的處理效率

變換器編碼器

基於變換器架構，通過自注意力機制捕捉圖像全局信息

CLS標記分類

使用[CLS]標記作為圖像整體表示，便於分類任務

模型能力

圖像分類

特徵提取

使用案例

計算機視覺

圖像分類

將輸入圖像分類為1000個ImageNet類別

在ImageNet-1K數據集上表現良好

特徵提取

提取圖像特徵用於下游任務

🚀 金字塔視覺變換器（微小尺寸模型）

金字塔視覺變換器（PVT）是一種基於Transformer架構的模型，它在圖像分類任務中表現出色。該模型在ImageNet - 1K數據集上進行預訓練，並在ImageNet 2012數據集上進行微調，能夠有效學習圖像的內在表示，為下游任務提供強大的特徵提取能力。

🚀 快速開始

金字塔視覺變換器（PVT）模型在ImageNet - 1K（100萬張圖像，1000個類別）上以224x224的分辨率進行預訓練，並在ImageNet 2012（100萬張圖像，1000個類別）上以224x224的分辨率進行微調。它由Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao等人在論文《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》中提出，並首次在此倉庫發佈。

聲明：發佈PVT的團隊並未為此模型編寫模型卡片，此模型卡片由Rinat S. [@Xrenya]編寫。

✨ 主要特性

模型描述

金字塔視覺變換器（PVT）是一種類似於BERT的Transformer編碼器模型，在ImageNet - 1k（也稱為ILSVRC2012）數據集上進行預訓練，該數據集包含100萬張圖像和1000個類別，圖像分辨率為224x224。

模型將圖像以可變大小的圖像塊序列形式輸入，並進行線性嵌入。與ViT模型不同的是，PVT使用漸進式收縮金字塔來減少每個階段大型特徵圖的計算量。同時，會在序列開頭添加一個[CLS]標記用於分類任務，並在將序列輸入到Transformer編碼器層之前添加絕對位置嵌入。

通過預訓練，模型學習到圖像的內在表示，可用於提取對下游任務有用的特徵。例如，如果有一個帶標籤的圖像數據集，可以在預訓練編碼器的基礎上添加一個線性層來訓練一個標準分類器，通常會在[CLS]標記上添加線性層，因為該標記的最後隱藏狀態可視為整個圖像的表示。

預期用途和限制

可以使用該原始模型進行圖像分類。可在模型中心查找針對感興趣任務的微調版本。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

以下是如何使用該模型將COCO 2017數據集中的圖像分類為1000個ImageNet類別之一的示例：

from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-tiny-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-tiny-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型預測1000個ImageNet類別之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代碼示例請參考文檔。

📚 詳細文檔

訓練數據

ViT模型在ImageNet - 1k數據集上進行預訓練，該數據集包含100萬張圖像和1000個類別。

訓練過程

預處理

訓練/驗證期間圖像預處理的確切細節可在此處找到。

圖像會被調整大小/縮放至相同的分辨率（224x224），並在RGB通道上進行歸一化，均值為(0.485, 0.456, 0.406)，標準差為(0.229, 0.224, 0.225)。

BibTeX引用和引用信息

@inproceedings{wang2021pyramid,
  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={568--578},
  year={2021}
}