🚀 金字塔視覺變換器(中等規模模型)
金字塔視覺變換器(PVT)是一種在圖像分類領域表現出色的模型。它在大規模圖像數據集上進行預訓練和微調,能夠學習到圖像的內在特徵,可用於各種圖像分類任務,為圖像識別提供了強大的支持。
🚀 快速開始
金字塔視覺變換器(PVT)模型在 ImageNet - 1K(100 萬張圖像,1000 個類別)上以 224x224 的分辨率進行了預訓練,並在 ImageNet 2012(100 萬張圖像,1000 個類別)上以 224x224 的分辨率進行了微調。它由 Wenhai Wang、Enze Xie 等人在論文 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 中提出,並首次在 此倉庫 發佈。
需要說明的是,發佈 PVT 的團隊並未為此模型編寫模型卡片,此模型卡片由 Rinat S. [@Xrenya] 編寫。
✨ 主要特性
模型描述
金字塔視覺變換器(PVT)是一種基於 Transformer 編碼器的模型(類似 BERT),在 ImageNet - 1k(也稱為 ILSVRC2012)上進行了預訓練。該數據集包含 100 萬張圖像和 1000 個類別,圖像分辨率為 224x224。
模型將圖像以可變大小的圖像塊序列形式輸入,並進行線性嵌入。與 ViT 模型不同,PVT 使用漸進式收縮金字塔來減少每個階段大特徵圖的計算量。同時,在序列開頭添加 [CLS] 標記用於分類任務,並在將序列輸入到 Transformer 編碼器層之前添加絕對位置嵌入。
通過預訓練,模型學習到圖像的內在表示,可用於提取對下游任務有用的特徵。例如,如果有一個帶標籤的圖像數據集,可以在預訓練編碼器的基礎上添加一個線性層來訓練一個標準分類器。通常在 [CLS] 標記上添加一個線性層,因為該標記的最後隱藏狀態可以看作是整個圖像的表示。
預期用途和限制
可以使用原始模型進行圖像分類。您可以在 模型中心 查找針對您感興趣的任務進行微調的版本。
📦 安裝指南
文檔未提及安裝步驟,此處跳過。
💻 使用示例
基礎用法
以下是如何使用此模型將 COCO 2017 數據集中的圖像分類為 1000 個 ImageNet 類別之一的示例:
from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代碼示例請參考 文檔。
📚 詳細文檔
訓練數據
ViT 模型在 ImageNet - 1k 上進行了預訓練,該數據集包含 100 萬張圖像和 1000 個類別。
訓練過程
預處理
訓練/驗證期間圖像預處理的確切細節可在 此處 找到。
圖像會被調整大小/縮放至相同分辨率(224x224),並在 RGB 通道上以均值(0.485, 0.456, 0.406)和標準差(0.229, 0.224, 0.225)進行歸一化。
BibTeX 引用和引用信息
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng - Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={568--578},
year={2021}
}
📄 許可證
本項目採用 Apache - 2.0 許可證。
📋 信息表格
屬性 |
詳情 |
模型類型 |
金字塔視覺變換器(中等規模模型) |
訓練數據 |
ImageNet - 1k(包含 100 萬張圖像和 1000 個類別) |