🚀 視覺變換器(小型模型):基於MSN方法的預訓練模型
本項目是一個使用 MSN 方法進行預訓練的視覺變換器(ViT)模型。該模型在圖像特徵提取和下游任務應用中表現出色,能夠幫助用戶在有限標註數據的情況下實現高效的圖像分類等任務。
🚀 快速開始
本模型可用於圖像分類等下游任務。你可以在 模型中心 查找不同版本的 MSN 預訓練模型。當訓練集中只有少量標註樣本時,該模型尤為有用。
✨ 主要特性
- 聯合嵌入架構:MSN 採用聯合嵌入架構,將掩碼塊的原型與未掩碼塊的原型進行匹配,在少樣本和極低樣本情況下表現出色。
- 特徵提取能力:通過預訓練,模型學習到圖像的內部表示,可用於提取對下游任務有用的特徵。
- 下游任務適配:可在預訓練編碼器上添加線性層,訓練標準分類器以完成圖像分類等任務。
📚 詳細文檔
模型描述
視覺變換器(ViT)是一種類似 BERT 的變換器編碼器模型。圖像以固定大小的塊序列形式輸入到模型中。
MSN 提出了一種聯合嵌入架構,用於匹配掩碼塊和未掩碼塊的原型。通過這種設置,該方法在少樣本和極低樣本情況下取得了優異的性能。
通過對模型進行預訓練,它可以學習到圖像的內部表示,進而用於提取對下游任務有用的特徵。例如,如果你有一個標註圖像的數據集,可以在預訓練編碼器上添加一個線性層,訓練一個標準分類器。
預期用途和限制
你可以將原始模型用於圖像分類等下游任務。可在 模型中心 查找感興趣的不同版本的 MSN 預訓練模型。當訓練集中只有少量標註樣本時,該模型特別有用。
如何使用
以下是如何使用這個骨幹編碼器:
基礎用法
from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-small")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-small")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
高級用法
對於圖像分類的微調,使用 ViTMSNForImageClassification
類:
from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-small")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-small")
...
引用
@article{assran2022masked,
title={Masked Siamese Networks for Label-Efficient Learning},
author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
journal={arXiv preprint arXiv:2204.07141},
year={2022}
}
📄 許可證
本項目採用 Apache-2.0 許可證。
屬性 |
詳情 |
模型類型 |
視覺變換器(ViT)小型模型,使用 MSN 方法預訓練 |
訓練數據 |
ImageNet-1k |
⚠️ 重要提示
發佈 MSN 的團隊未為此模型編寫模型卡片,此模型卡片由 Hugging Face 團隊編寫。
💡 使用建議
當訓練集中只有少量標註樣本時,該模型特別有用。你可以在 模型中心 查找感興趣的不同版本的 MSN 預訓練模型。