🚀 金字塔视觉变换器(微小尺寸模型)
金字塔视觉变换器(PVT)是一种基于Transformer架构的模型,它在图像分类任务中表现出色。该模型在ImageNet - 1K数据集上进行预训练,并在ImageNet 2012数据集上进行微调,能够有效学习图像的内在表示,为下游任务提供强大的特征提取能力。
🚀 快速开始
金字塔视觉变换器(PVT)模型在ImageNet - 1K(100万张图像,1000个类别)上以224x224的分辨率进行预训练,并在ImageNet 2012(100万张图像,1000个类别)上以224x224的分辨率进行微调。它由Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao等人在论文《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions》中提出,并首次在此仓库发布。
声明:发布PVT的团队并未为此模型编写模型卡片,此模型卡片由Rinat S. [@Xrenya]编写。
✨ 主要特性
模型描述
金字塔视觉变换器(PVT)是一种类似于BERT的Transformer编码器模型,在ImageNet - 1k(也称为ILSVRC2012)数据集上进行预训练,该数据集包含100万张图像和1000个类别,图像分辨率为224x224。
模型将图像以可变大小的图像块序列形式输入,并进行线性嵌入。与ViT模型不同的是,PVT使用渐进式收缩金字塔来减少每个阶段大型特征图的计算量。同时,会在序列开头添加一个[CLS]标记用于分类任务,并在将序列输入到Transformer编码器层之前添加绝对位置嵌入。
通过预训练,模型学习到图像的内在表示,可用于提取对下游任务有用的特征。例如,如果有一个带标签的图像数据集,可以在预训练编码器的基础上添加一个线性层来训练一个标准分类器,通常会在[CLS]标记上添加线性层,因为该标记的最后隐藏状态可视为整个图像的表示。
预期用途和限制
可以使用该原始模型进行图像分类。可在模型中心查找针对感兴趣任务的微调版本。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
以下是如何使用该模型将COCO 2017数据集中的图像分类为1000个ImageNet类别之一的示例:
from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-tiny-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-tiny-224')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代码示例请参考文档。
📚 详细文档
训练数据
ViT模型在ImageNet - 1k数据集上进行预训练,该数据集包含100万张图像和1000个类别。
训练过程
预处理
训练/验证期间图像预处理的确切细节可在此处找到。
图像会被调整大小/缩放至相同的分辨率(224x224),并在RGB通道上进行归一化,均值为(0.485, 0.456, 0.406),标准差为(0.229, 0.224, 0.225)。
BibTeX引用和引用信息
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={568--578},
year={2021}
}
📄 许可证
本模型使用Apache - 2.0许可证。