🚀 金字塔視覺變換器(微小尺寸模型)
金字塔視覺變換器(PVT)是一種基於Transformer架構的模型,它在圖像分類任務中表現出色。該模型在ImageNet - 1K數據集上進行預訓練,並在ImageNet 2012數據集上進行微調,能夠有效學習圖像的內在表示,為下游任務提供強大的特徵提取能力。
🚀 快速開始
金字塔視覺變換器(PVT)模型在ImageNet - 1K(100萬張圖像,1000個類別)上以224x224的分辨率進行預訓練,並在ImageNet 2012(100萬張圖像,1000個類別)上以224x224的分辨率進行微調。它由Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao等人在論文《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》中提出,並首次在此倉庫發佈。
聲明:發佈PVT的團隊並未為此模型編寫模型卡片,此模型卡片由Rinat S. [@Xrenya]編寫。
✨ 主要特性
模型描述
金字塔視覺變換器(PVT)是一種類似於BERT的Transformer編碼器模型,在ImageNet - 1k(也稱為ILSVRC2012)數據集上進行預訓練,該數據集包含100萬張圖像和1000個類別,圖像分辨率為224x224。
模型將圖像以可變大小的圖像塊序列形式輸入,並進行線性嵌入。與ViT模型不同的是,PVT使用漸進式收縮金字塔來減少每個階段大型特徵圖的計算量。同時,會在序列開頭添加一個[CLS]標記用於分類任務,並在將序列輸入到Transformer編碼器層之前添加絕對位置嵌入。
通過預訓練,模型學習到圖像的內在表示,可用於提取對下游任務有用的特徵。例如,如果有一個帶標籤的圖像數據集,可以在預訓練編碼器的基礎上添加一個線性層來訓練一個標準分類器,通常會在[CLS]標記上添加線性層,因為該標記的最後隱藏狀態可視為整個圖像的表示。
預期用途和限制
可以使用該原始模型進行圖像分類。可在模型中心查找針對感興趣任務的微調版本。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
以下是如何使用該模型將COCO 2017數據集中的圖像分類為1000個ImageNet類別之一的示例:
from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-tiny-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-tiny-224')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代碼示例請參考文檔。
📚 詳細文檔
訓練數據
ViT模型在ImageNet - 1k數據集上進行預訓練,該數據集包含100萬張圖像和1000個類別。
訓練過程
預處理
訓練/驗證期間圖像預處理的確切細節可在此處找到。
圖像會被調整大小/縮放至相同的分辨率(224x224),並在RGB通道上進行歸一化,均值為(0.485, 0.456, 0.406),標準差為(0.229, 0.224, 0.225)。
BibTeX引用和引用信息
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={568--578},
year={2021}
}
📄 許可證
本模型使用Apache - 2.0許可證。