vit-msn-large開源視覺模型 - 在少樣本場景下也能有優異表現

Home

Vit Msn Large

Developed by facebook

採用MSN方法預訓練的視覺Transformer模型，在少樣本場景下表現優異

圖像分類

Transformers

Open Source License:Apache-2.0 #少樣本學習 #圖像表徵學習 #自監督預訓練

Downloads 48

Release Time : 9/9/2022

Model Overview

該視覺Transformer模型通過Masked Siamese Networks方法預訓練，特別適合標註數據有限的圖像分類任務，能夠學習圖像的內在表徵並遷移到下游任務

Model Features

少樣本學習能力

通過MSN預訓練方法，在標註數據有限的場景下仍能保持優異性能

聯合嵌入架構

採用掩碼圖塊與原型圖塊匹配的獨特訓練方式

遷移學習友好

預訓練表徵可輕鬆遷移到各種下游視覺任務

Model Capabilities

圖像特徵提取

少樣本圖像分類

視覺表徵學習

Use Cases

計算機視覺

少樣本圖像分類

在標註樣本有限的情況下實現圖像分類

在少樣本和極少量樣本場景下表現卓越

視覺特徵提取

作為基礎編碼器提取圖像特徵

🚀 視覺變換器（大型模型）：基於MSN方法的預訓練模型

視覺變換器（ViT）是一種基於Transformer架構的模型，本項目的模型採用MSN方法進行預訓練。它能夠學習圖像的內在表示，為下游任務（如圖像分類）提取有用的特徵，尤其在訓練集中標記樣本較少的情況下表現出色。

🚀 快速開始

本模型可用於圖像分類等下游任務。你可以在模型中心查找不同版本的MSN預訓練模型。

✨ 主要特性

聯合嵌入架構：MSN使用聯合嵌入架構，將掩碼補丁的原型與未掩碼補丁的原型進行匹配，在少樣本和極少樣本的情況下表現出色。
特徵提取能力：通過預訓練，模型學習到圖像的內在表示，可用於提取對下游任務有用的特徵。

📚 詳細文檔

模型描述

視覺變換器（ViT）是一種類似BERT的Transformer編碼器模型。圖像被分割成固定大小的補丁序列輸入到模型中。

MSN提出了一種聯合嵌入架構，用於匹配掩碼補丁和未掩碼補丁的原型。通過這種設置，該方法在少樣本和極少樣本的情況下取得了優異的性能。

通過預訓練，模型學習到圖像的內在表示，這些表示可用於提取對下游任務有用的特徵。例如，如果你有一個標記圖像的數據集，可以在預訓練編碼器的基礎上添加一個線性層，訓練一個標準的分類器。

預期用途和限制

你可以將原始模型用於圖像分類等下游任務。可以在模型中心查找感興趣的不同版本的MSN預訓練模型。該模型在訓練集中標記樣本較少的情況下特別有用。

💻 使用示例

基礎用法

以下是如何使用這個骨幹編碼器的示例：

from transformers import AutoFeatureExtractor, ViTMSNModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large")
model = ViTMSNModel.from_pretrained("facebook/vit-msn-large")
inputs = feature_extractor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

高級用法

在圖像分類任務上進行微調時，可以使用 ViTMSNForImageClassification 類：

from transformers import AutoFeatureExtractor, ViTMSNForImageClassification
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("facebook/vit-msn-large")
model = ViTMSNForImageClassification.from_pretrained("facebook/vit-msn-large")

...

引用

@article{assran2022masked,
  title={Masked Siamese Networks for Label-Efficient Learning}, 
  author={Assran, Mahmoud, and Caron, Mathilde, and Misra, Ishan, and Bojanowski, Piotr, and Bordes, Florian and Vincent, Pascal, and Joulin, Armand, and Rabbat, Michael, and Ballas, Nicolas},
  journal={arXiv preprint arXiv:2204.07141},
  year={2022}
}