🚀 金字塔视觉变换器(中等规模模型)
金字塔视觉变换器(PVT)是一种在图像分类领域表现出色的模型。它在大规模图像数据集上进行预训练和微调,能够学习到图像的内在特征,可用于各种图像分类任务,为图像识别提供了强大的支持。
🚀 快速开始
金字塔视觉变换器(PVT)模型在 ImageNet - 1K(100 万张图像,1000 个类别)上以 224x224 的分辨率进行了预训练,并在 ImageNet 2012(100 万张图像,1000 个类别)上以 224x224 的分辨率进行了微调。它由 Wenhai Wang、Enze Xie 等人在论文 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 中提出,并首次在 此仓库 发布。
需要说明的是,发布 PVT 的团队并未为此模型编写模型卡片,此模型卡片由 Rinat S. [@Xrenya] 编写。
✨ 主要特性
模型描述
金字塔视觉变换器(PVT)是一种基于 Transformer 编码器的模型(类似 BERT),在 ImageNet - 1k(也称为 ILSVRC2012)上进行了预训练。该数据集包含 100 万张图像和 1000 个类别,图像分辨率为 224x224。
模型将图像以可变大小的图像块序列形式输入,并进行线性嵌入。与 ViT 模型不同,PVT 使用渐进式收缩金字塔来减少每个阶段大特征图的计算量。同时,在序列开头添加 [CLS] 标记用于分类任务,并在将序列输入到 Transformer 编码器层之前添加绝对位置嵌入。
通过预训练,模型学习到图像的内在表示,可用于提取对下游任务有用的特征。例如,如果有一个带标签的图像数据集,可以在预训练编码器的基础上添加一个线性层来训练一个标准分类器。通常在 [CLS] 标记上添加一个线性层,因为该标记的最后隐藏状态可以看作是整个图像的表示。
预期用途和限制
可以使用原始模型进行图像分类。您可以在 模型中心 查找针对您感兴趣的任务进行微调的版本。
📦 安装指南
文档未提及安装步骤,此处跳过。
💻 使用示例
基础用法
以下是如何使用此模型将 COCO 2017 数据集中的图像分类为 1000 个 ImageNet 类别之一的示例:
from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
更多代码示例请参考 文档。
📚 详细文档
训练数据
ViT 模型在 ImageNet - 1k 上进行了预训练,该数据集包含 100 万张图像和 1000 个类别。
训练过程
预处理
训练/验证期间图像预处理的确切细节可在 此处 找到。
图像会被调整大小/缩放至相同分辨率(224x224),并在 RGB 通道上以均值(0.485, 0.456, 0.406)和标准差(0.229, 0.224, 0.225)进行归一化。
BibTeX 引用和引用信息
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng - Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={568--578},
year={2021}
}
📄 许可证
本项目采用 Apache - 2.0 许可证。
📋 信息表格
属性 |
详情 |
模型类型 |
金字塔视觉变换器(中等规模模型) |
训练数据 |
ImageNet - 1k(包含 100 万张图像和 1000 个类别) |