pvt-medium-224開源視覺模型 - 免費部署實現高效圖像分類任務

Home

Pvt Medium 224

Developed by Xrenya

PVT是一種基於Transformer的視覺模型，採用金字塔結構處理圖像，在ImageNet-1K上預訓練，適用於圖像分類任務。

圖像分類

Transformers

Open Source License:Apache-2.0 #金字塔結構Transformer #密集預測骨幹網絡 #ImageNet分類

Downloads 13

Release Time : 3/27/2023

Model Overview

該模型是一種無需卷積的視覺Transformer架構，通過漸進式金字塔結構減少計算量，主要用於圖像分類任務。

Model Features

金字塔結構設計

採用漸進式縮小金字塔結構，有效減少對大特徵圖的計算量

無卷積架構

完全基於Transformer編碼器，不依賴傳統卷積操作

全局上下文建模

通過[CLS]標記捕獲圖像全局特徵表示

Model Capabilities

圖像分類

特徵提取

Use Cases

計算機視覺

通用圖像分類

將圖像分類為1000個ImageNet類別

在ImageNet-1K數據集上表現良好

下游任務特徵提取

作為骨幹網絡為其他視覺任務提供特徵

🚀 金字塔視覺變換器（中等規模模型）

金字塔視覺變換器（PVT）是一種在圖像分類領域表現出色的模型。它在大規模圖像數據集上進行預訓練和微調，能夠學習到圖像的內在特徵，可用於各種圖像分類任務，為圖像識別提供了強大的支持。

🚀 快速開始

金字塔視覺變換器（PVT）模型在 ImageNet - 1K（100 萬張圖像，1000 個類別）上以 224x224 的分辨率進行了預訓練，並在 ImageNet 2012（100 萬張圖像，1000 個類別）上以 224x224 的分辨率進行了微調。它由 Wenhai Wang、Enze Xie 等人在論文 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 中提出，並首次在此倉庫發佈。

需要說明的是，發佈 PVT 的團隊並未為此模型編寫模型卡片，此模型卡片由 Rinat S. [@Xrenya] 編寫。

✨ 主要特性

模型描述

金字塔視覺變換器（PVT）是一種基於 Transformer 編碼器的模型（類似 BERT），在 ImageNet - 1k（也稱為 ILSVRC2012）上進行了預訓練。該數據集包含 100 萬張圖像和 1000 個類別，圖像分辨率為 224x224。

模型將圖像以可變大小的圖像塊序列形式輸入，並進行線性嵌入。與 ViT 模型不同，PVT 使用漸進式收縮金字塔來減少每個階段大特徵圖的計算量。同時，在序列開頭添加 [CLS] 標記用於分類任務，並在將序列輸入到 Transformer 編碼器層之前添加絕對位置嵌入。

通過預訓練，模型學習到圖像的內在表示，可用於提取對下游任務有用的特徵。例如，如果有一個帶標籤的圖像數據集，可以在預訓練編碼器的基礎上添加一個線性層來訓練一個標準分類器。通常在 [CLS] 標記上添加一個線性層，因為該標記的最後隱藏狀態可以看作是整個圖像的表示。

預期用途和限制

可以使用原始模型進行圖像分類。您可以在模型中心查找針對您感興趣的任務進行微調的版本。

📦 安裝指南

文檔未提及安裝步驟，此處跳過。

💻 使用示例

基礎用法

以下是如何使用此模型將 COCO 2017 數據集中的圖像分類為 1000 個 ImageNet 類別之一的示例：

from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# 模型預測 1000 個 ImageNet 類別之一
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多代碼示例請參考文檔。

📚 詳細文檔

訓練數據

ViT 模型在 ImageNet - 1k 上進行了預訓練，該數據集包含 100 萬張圖像和 1000 個類別。

訓練過程

預處理

訓練/驗證期間圖像預處理的確切細節可在此處找到。

圖像會被調整大小/縮放至相同分辨率（224x224），並在 RGB 通道上以均值（0.485, 0.456, 0.406）和標準差（0.229, 0.224, 0.225）進行歸一化。

BibTeX 引用和引用信息

@inproceedings{wang2021pyramid,
  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng - Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={568--578},
  year={2021}
}