🚀 視覺變換器(大尺寸模型),使用MSN方法預訓練(補丁尺寸為7)
本項目是使用MSN方法預訓練的視覺變換器(ViT)模型,可用於圖像特徵提取和下游任務,在少樣本場景下表現出色。
🚀 快速開始
本模型是使用MSN方法預訓練的視覺變換器(ViT)模型。它首次在Mahmoud Assran、Mathilde Caron、Ishan Misra、Piotr Bojanowski、Florian Bordes、Pascal Vincent、Armand Joulin、Michael Rabbat、Nicolas Ballas等人撰寫的論文 Masked Siamese Networks for Label-Efficient Learning 中被提出,並首次在 此倉庫 中發佈。
聲明:發佈MSN的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
✨ 主要特性
模型描述
視覺變換器(ViT)是一種基於Transformer編碼器的模型(類似BERT)。圖像以固定大小的補丁序列形式輸入到模型中。
MSN提出了一種聯合嵌入架構,用於匹配掩碼補丁和未掩碼補丁的原型。通過這種設置,該方法在少樣本和極端少樣本情況下表現出色。
通過對模型進行預訓練,它可以學習圖像的內部表示,這些表示可用於提取對下游任務有用的特徵:例如,如果您有一個帶標籤的圖像數據集,您可以在預訓練的編碼器之上添加一個線性層,訓練一個標準的分類器。
預期用途和限制
您可以將原始模型用於圖像分類等下游任務。請查看 模型中心 以查找您感興趣的不同版本的MSN預訓練模型。當您的訓練集中只有少量帶標籤的樣本時,該模型特別有用。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
以下是如何使用此骨幹編碼器的示例:
from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large-7")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-large-7")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
高級用法
若要在圖像分類任務上進行微調,請使用 ViTMSNForImageClassification
類:
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large-7")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-large-7")
...
📚 詳細文檔
引用
@article{assran2022masked,
title={Masked Siamese Networks for Label-Efficient Learning},
author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
journal={arXiv preprint arXiv:2204.07141},
year={2022}
}
📄 許可證
本項目採用Apache 2.0許可證。
屬性 |
詳情 |
模型類型 |
視覺變換器(ViT),使用MSN方法預訓練 |
訓練數據 |
ImageNet-1K |