pvt - medium - 224オープンソースビジュアルモデル - 無料でデプロイして効率的な画像分類タスクを実現

ホーム

Pvt Medium 224

Xrenyaによって開発

PVTはTransformerベースの視覚モデルで、ピラミッド構造を使用して画像を処理し、ImageNet-1Kで事前学習されており、画像分類タスクに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #ピラミッド構造Transformer #高密度予測バックボーンネットワーク #ImageNet分類

ダウンロード数 13

リリース時間 : 3/27/2023

モデル概要

このモデルは畳み込みを必要としない視覚Transformerアーキテクチャで、漸進的なピラミッド構造により計算量を削減し、主に画像分類タスクに使用されます。

モデル特徴

ピラミッド構造設計

漸進的に縮小するピラミッド構造を採用し、大きな特徴マップの計算量を効果的に削減

畳み込みなしアーキテクチャ

完全にTransformerエンコーダーに基づいており、従来の畳み込み操作に依存しない

グローバルコンテキストモデリング

[CLS]トークンを使用して画像のグローバル特徴表現をキャプチャ

モデル能力

画像分類

特徴抽出

使用事例

コンピュータビジョン

汎用画像分類

画像を1000のImageNetカテゴリに分類

ImageNet-1Kデータセットで良好なパフォーマンス

下流タスクの特徴抽出

他の視覚タスクのためのバックボーンネットワークとして特徴を提供

🚀 ピラミッドビジョントランスフォーマー (中型モデル)

ピラミッドビジョントランスフォーマー（PVT）モデルは、解像度224x224のImageNet - 1K（100万枚の画像、1000クラス）で事前学習され、解像度224x224のImageNet 2012（100万枚の画像、1000クラス）で微調整されました。このモデルは、Wenhai Wang、Enze Xie、Xiang Li、Deng - Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shaoによる論文Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutionsで紹介され、このリポジトリで最初に公開されました。

免責事項：PVTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはRinat S. [@Xrenya]によって作成されました。

🚀 クイックスタート

このモデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンをモデルハブで探すことができます。

✨ 主な機能

ピラミッドビジョントランスフォーマー（PVT）は、解像度224x224のImageNet - 1k（ILSVRC2012とも呼ばれる）という100万枚の画像と1000クラスからなるデータセットで事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。画像は可変サイズのパッチのシーケンスとしてモデルに入力され、線形に埋め込まれます。ViTモデルとは異なり、PVTは各段階で大きな特徴マップの計算を削減するために漸進的な縮小ピラミッドを使用しています。また、分類タスクに使用するためにシーケンスの先頭に[CLS]トークンを追加し、トランスフォーマーエンコーダのレイヤーに入力する前に絶対位置埋め込みを追加します。事前学習により、モデルは画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。

💻 使用例

基本的な使用法

これは、このモデルを使用してCOCO 2017データセットの画像を1000のImageNetクラスのいずれかに分類する方法です。

from transformers import PvtImageProcessor, PvtForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = PvtImageProcessor.from_pretrained('Zetatech/pvt-medium-224')
model = PvtForImageClassification.from_pretrained('Zetatech/pvt-medium-224')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

モデルの説明

想定される用途と制限

このモデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンをモデルハブで探すことができます。

トレーニングデータ

ViTモデルは、100万枚の画像と1kクラスからなるデータセットであるImageNet - 1kで事前学習されました。

トレーニング手順

前処理

トレーニング/検証中の画像の前処理の正確な詳細は、ここで見ることができます。画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGBチャネル全体で平均（0.485, 0.456, 0.406）と標準偏差（0.229, 0.224, 0.225）で正規化されます。

BibTeX引用

@inproceedings{wang2021pyramid,
  title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={568--578},
  year={2021}
}