🚀 vit_reg4_b16_mim模型卡片
这是一个使用掩码图像建模(MIM)预训练的ViT reg4图像编码器。该模型未针对特定分类任务进行微调,旨在用作通用特征提取器,或作为目标检测、分割或自定义分类等下游任务的主干网络。
🚀 快速开始
本模型可作为通用特征提取器或下游任务的主干网络,以下是使用示例。
✨ 主要特性
- 基于掩码图像建模(MIM)进行预训练,适用于多种图像相关的下游任务。
- 未针对特定分类任务进行微调,具有更广泛的通用性。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
import birder
from PIL import Image
(net, model_info) = birder.load_pretrained_model("vit_reg4_b16_mim_300", inference=True)
size = birder.get_size_from_signature(model_info.signature)
transform = birder.classification_transform(size, model_info.rgb_stats)
image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
embedding = net.embedding(input_tensor)
高级用法
import torch
import birder
from PIL import Image
(net, cfg) = birder.load_model_with_cfg("models/vit_reg4_b16_mim.json", "models/vit_reg4_b16_mim_300.pt")
net.eval()
size = birder.get_size_from_signature(cfg["signature"])
transform = birder.classification_transform(size, cfg["rgb_stats"])
image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
embedding = net.embedding(input_tensor)
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
图像编码器 |
模型参数(M) |
85.8 |
输入图像尺寸 |
224 x 224 |
训练数据集 |
该模型在约1100万张图像的多样化数据集上进行训练,包括: - iNaturalist 2021(约330万张) - WebVision - 2.0(约150万张随机子集) - imagenet - w21 - webp - wds(约100万张随机子集) - SA - 1B(20个块中约22万张随机子集) - COCO(约12万张) - NABirds(约4.8万张) - Birdsnap v1.1(约4.4万张) - CUB - 200 2011(约1.8万张) - The Birder数据集(约500万张,私有数据集) |
引用论文 |
- 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》:https://arxiv.org/abs/2010.11929 - 《Vision Transformers Need Registers》:https://arxiv.org/abs/2309.16588 - 《Masked Autoencoders Are Scalable Vision Learners》:https://arxiv.org/abs/2111.06377 |
🔧 技术细节
文档未提供具体技术实现细节,故跳过此章节。
📄 许可证
本模型采用Apache 2.0许可证。
📖 引用信息
@misc{dosovitskiy2021imageworth16x16words,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Alexey Dosovitskiy and Lucas Beyer and Alexander Kolesnikov and Dirk Weissenborn and Xiaohua Zhai and Thomas Unterthiner and Mostafa Dehghani and Matthias Minderer and Georg Heigold and Sylvain Gelly and Jakob Uszkoreit and Neil Houlsby},
year={2021},
eprint={2010.11929},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2010.11929},
}
@misc{darcet2024visiontransformersneedregisters,
title={Vision Transformers Need Registers},
author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
year={2024},
eprint={2309.16588},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2309.16588},
}
@misc{he2021maskedautoencodersscalablevision,
title={Masked Autoencoders Are Scalable Vision Learners},
author={Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Dollár and Ross Girshick},
year={2021},
eprint={2111.06377},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2111.06377},
}