🚀 ピラミッドビジョントランスフォーマー (中型モデル)
ピラミッドビジョントランスフォーマー(PVT)モデルは、解像度224x224のImageNet - 1K(100万枚の画像、1000クラス)で事前学習され、解像度224x224のImageNet 2012(100万枚の画像、1000クラス)で微調整されました。このモデルは、Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shaoによる論文Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutionsで紹介され、このリポジトリで最初に公開されました。
免責事項:PVTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはRinat S. [@Xrenya]によって作成されました。
🚀 クイックスタート
このモデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンをモデルハブで探すことができます。
✨ 主な機能
ピラミッドビジョントランスフォーマー(PVT)は、解像度224x224のImageNet - 1k(ILSVRC2012とも呼ばれる)という100万枚の画像と1000クラスからなるデータセットで事前学習されたトランスフォーマーエンコーダモデル(BERTのような)です。画像は可変サイズのパッチのシーケンスとしてモデルに入力され、線形に埋め込まれます。ViTモデルとは異なり、PVTは各段階で大きな特徴マップの計算を削減するために漸進的な縮小ピラミッドを使用しています。また、分類タスクに使用するためにシーケンスの先頭に[CLS]トークンを追加し、トランスフォーマーエンコーダのレイヤーに入力する前に絶対位置埋め込みを追加します。事前学習により、モデルは画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。
💻 使用例
基本的な使用法
これは、このモデルを使用してCOCO 2017データセットの画像を1000のImageNetクラスのいずれかに分類する方法です。
from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
より多くのコード例については、ドキュメントを参照してください。
📚 ドキュメント
モデルの説明
ピラミッドビジョントランスフォーマー(PVT)は、解像度224x224のImageNet - 1k(ILSVRC2012とも呼ばれる)という100万枚の画像と1000クラスからなるデータセットで事前学習されたトランスフォーマーエンコーダモデル(BERTのような)です。画像は可変サイズのパッチのシーケンスとしてモデルに入力され、線形に埋め込まれます。ViTモデルとは異なり、PVTは各段階で大きな特徴マップの計算を削減するために漸進的な縮小ピラミッドを使用しています。また、分類タスクに使用するためにシーケンスの先頭に[CLS]トークンを追加し、トランスフォーマーエンコーダのレイヤーに入力する前に絶対位置埋め込みを追加します。事前学習により、モデルは画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。
想定される用途と制限
このモデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンをモデルハブで探すことができます。
トレーニングデータ
ViTモデルは、100万枚の画像と1kクラスからなるデータセットであるImageNet - 1kで事前学習されました。
トレーニング手順
前処理
トレーニング/検証中の画像の前処理の正確な詳細は、ここで見ることができます。画像は同じ解像度(224x224)にリサイズ/リスケールされ、RGBチャネル全体で平均(0.485, 0.456, 0.406)と標準偏差(0.229, 0.224, 0.225)で正規化されます。
BibTeX引用
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={568--578},
year={2021}
}
🔧 技術詳細
- モデルタイプ:ピラミッドビジョントランスフォーマー(PVT)
- トレーニングデータ:ImageNet - 1k(100万枚の画像、1000クラス)
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。