🚀 視覺變換器(基礎大小模型) - 使用MSN預訓練
視覺變換器(ViT)是一種基於Transformer架構的模型,本項目的模型使用MSN方法進行預訓練。它能學習圖像的內在表示,可用於提取對下游任務有用的特徵,在低樣本和極低樣本場景中表現出色。
🚀 快速開始
視覺變換器(ViT)是一種類似BERT的Transformer編碼器模型。圖像以固定大小的圖像塊序列形式輸入到模型中。MSN提出了一種聯合嵌入架構,用於匹配被掩碼圖像塊和未被掩碼圖像塊的原型。通過預訓練模型,它可以學習圖像的內在表示,這些表示可用於提取對下游任務有用的特徵。
基礎用法
from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-base")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
高級用法
對於圖像分類的微調,請使用ViTMSNForImageClassification
類:
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-base")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-base")
...
✨ 主要特性
- 聯合嵌入架構:MSN提出的聯合嵌入架構,可匹配被掩碼和未被掩碼圖像塊的原型,在低樣本和極低樣本場景中表現出色。
- 特徵提取:通過預訓練學習圖像的內在表示,可用於提取對下游任務有用的特徵。
- 下游任務支持:可用於圖像分類等下游任務,特別是在訓練集中標記樣本較少時。
📚 詳細文檔
模型描述
視覺變換器(ViT)是一種Transformer編碼器模型(類似BERT)。圖像以固定大小的圖像塊序列形式呈現給模型。MSN提出了一種聯合嵌入架構,用於匹配被掩碼圖像塊和未被掩碼圖像塊的原型。通過這種設置,該方法在低樣本和極低樣本情況下取得了出色的性能。
通過預訓練模型,它學習圖像的內在表示,這些表示可用於提取對下游任務有用的特徵:例如,如果您有一個標記圖像的數據集,您可以通過在預訓練編碼器之上放置一個線性層來訓練一個標準分類器。
預期用途和限制
您可以將原始模型用於圖像分類等下游任務。請參閱模型中心,查找您感興趣的不同版本的MSN預訓練模型。當您的訓練集中有少量標記樣本時,該模型特別有用。
📄 許可證
本項目採用Apache-2.0許可證。
引用
@article{assran2022masked,
title={Masked Siamese Networks for Label-Efficient Learning},
author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
journal={arXiv preprint arXiv:2204.07141},
year={2022}
}
屬性 |
詳情 |
模型類型 |
視覺變換器(ViT),使用MSN方法預訓練 |
訓練數據 |
ImageNet-1K |
⚠️ 重要提示
發佈MSN的團隊沒有為該模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
💡 使用建議
當訓練集中標記樣本較少時,該模型能發揮較好的性能,可前往模型中心查找不同版本的MSN預訓練模型。