🚀 ビジョントランスフォーマー (ベースサイズのモデル) を MSN で事前学習 (パッチサイズ 4)
このモデルは、MSN 手法を用いて事前学習されたビジョントランスフォーマー (ViT) モデルです。このモデルは、Mahmoud Assran、Mathilde Caron、Ishan Misra、Piotr Bojanowski、Florian Bordes、Pascal Vincent、Armand Joulin、Michael Rabbat、Nicolas Ballas による論文 Masked Siamese Networks for Label-Efficient Learning で紹介され、このリポジトリ で最初に公開されました。
免責事項: MSN を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは Hugging Face チームによって作成されました。
🚀 クイックスタート
ビジョントランスフォーマー (ViT) は、トランスフォーマーエンコーダモデル (BERT のような) です。画像は固定サイズのパッチのシーケンスとしてモデルに入力されます。
✨ 主な機能
MSN は、マスクされたパッチのプロトタイプをマスクされていないパッチのプロトタイプと一致させるためのジョイント埋め込みアーキテクチャを提案しています。この設定により、この手法は少サンプルおよび極少サンプルのレジームで優れた性能を発揮します。
モデルを事前学習することで、画像の内部表現を学習し、それを下流タスクに有用な特徴抽出に利用することができます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して標準的な分類器を学習することができます。
📚 ドキュメント
想定される用途と制限
このモデルは、画像分類などの下流タスクに使用することができます。モデルハブ を参照して、あなたが興味のある MSN 事前学習モデルの異なるバージョンを探してください。このモデルは、トレーニングセットに少数のラベル付きサンプルがある場合に特に有益です。
使い方
このバックボーンエンコーダの使用方法は以下の通りです。
基本的な使用法
from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base-4")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-base-4")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
画像分類のファインチューニングには ViTMSNForImageClassification
クラスを使用します。
高度な使用法
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base-4")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-base-4")
...
引用
@article{assran2022masked,
title={Masked Siamese Networks for Label-Efficient Learning},
author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
journal={arXiv preprint arXiv:2204.07141},
year={2022}
}
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。