🚀 vit_reg4_b16_mim模型卡片
這是一個使用掩碼圖像建模(MIM)預訓練的ViT reg4圖像編碼器。該模型未針對特定分類任務進行微調,旨在用作通用特徵提取器,或作為目標檢測、分割或自定義分類等下游任務的主幹網絡。
🚀 快速開始
本模型可作為通用特徵提取器或下游任務的主幹網絡,以下是使用示例。
✨ 主要特性
- 基於掩碼圖像建模(MIM)進行預訓練,適用於多種圖像相關的下游任務。
- 未針對特定分類任務進行微調,具有更廣泛的通用性。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
import birder
from PIL import Image
(net, model_info) = birder.load_pretrained_model("vit_reg4_b16_mim_300", inference=True)
size = birder.get_size_from_signature(model_info.signature)
transform = birder.classification_transform(size, model_info.rgb_stats)
image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
embedding = net.embedding(input_tensor)
高級用法
import torch
import birder
from PIL import Image
(net, cfg) = birder.load_model_with_cfg("models/vit_reg4_b16_mim.json", "models/vit_reg4_b16_mim_300.pt")
net.eval()
size = birder.get_size_from_signature(cfg["signature"])
transform = birder.classification_transform(size, cfg["rgb_stats"])
image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
embedding = net.embedding(input_tensor)
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
圖像編碼器 |
模型參數(M) |
85.8 |
輸入圖像尺寸 |
224 x 224 |
訓練數據集 |
該模型在約1100萬張圖像的多樣化數據集上進行訓練,包括: - iNaturalist 2021(約330萬張) - WebVision - 2.0(約150萬張隨機子集) - imagenet - w21 - webp - wds(約100萬張隨機子集) - SA - 1B(20個塊中約22萬張隨機子集) - COCO(約12萬張) - NABirds(約4.8萬張) - Birdsnap v1.1(約4.4萬張) - CUB - 200 2011(約1.8萬張) - The Birder數據集(約500萬張,私有數據集) |
引用論文 |
- 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》:https://arxiv.org/abs/2010.11929 - 《Vision Transformers Need Registers》:https://arxiv.org/abs/2309.16588 - 《Masked Autoencoders Are Scalable Vision Learners》:https://arxiv.org/abs/2111.06377 |
🔧 技術細節
文檔未提供具體技術實現細節,故跳過此章節。
📄 許可證
本模型採用Apache 2.0許可證。
📖 引用信息
@misc{dosovitskiy2021imageworth16x16words,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Alexey Dosovitskiy and Lucas Beyer and Alexander Kolesnikov and Dirk Weissenborn and Xiaohua Zhai and Thomas Unterthiner and Mostafa Dehghani and Matthias Minderer and Georg Heigold and Sylvain Gelly and Jakob Uszkoreit and Neil Houlsby},
year={2021},
eprint={2010.11929},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2010.11929},
}
@misc{darcet2024visiontransformersneedregisters,
title={Vision Transformers Need Registers},
author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
year={2024},
eprint={2309.16588},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2309.16588},
}
@misc{he2021maskedautoencodersscalablevision,
title={Masked Autoencoders Are Scalable Vision Learners},
author={Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Dollár and Ross Girshick},
year={2021},
eprint={2111.06377},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2111.06377},
}