vit_reg4_b16_mim开源图像编码器 - 免费进行通用特征提取与视觉任务处理

首页

Vit Reg4 B16 Mim

由 birder-project 开发

基于掩码图像建模(MIM)预训练的ViT reg4图像编码器，适用于通用特征提取或下游视觉任务

图像分类

PyTorch

开源协议:Apache-2.0 #掩码图像建模预训练 #通用视觉特征提取 #鸟类图像识别

下载量 70

发布时间 : 4/25/2025

模型简介

这是一个使用掩码图像建模方法预训练的视觉Transformer模型，未针对特定分类任务微调，可作为通用图像特征提取器或下游视觉任务（如目标检测、分割）的骨干网络

模型特点

掩码图像建模预训练

采用MAE(Masked Autoencoder)方法进行自监督预训练，学习强大的视觉表示能力

寄存器增强架构

采用ViT reg4架构，包含寄存器token以提升模型性能

多样化训练数据

在约1100万张多样化图像上训练，涵盖自然场景、鸟类等多种视觉领域

模型能力

图像特征提取

视觉表示学习

下游任务骨干网络

使用案例

计算机视觉

鸟类识别

作为特征提取器用于鸟类识别系统

目标检测

作为骨干网络用于目标检测任务

图像分割

作为编码器用于语义分割任务

🚀 vit_reg4_b16_mim模型卡片

这是一个使用掩码图像建模（MIM）预训练的ViT reg4图像编码器。该模型未针对特定分类任务进行微调，旨在用作通用特征提取器，或作为下游任务（如目标检测、分割或自定义分类）的骨干网络。

🚀 快速开始

模型详情

属性	详情
模型类型	图像编码器
模型统计信息	参数（M）：85.8；输入图像大小：224 x 224
训练数据集	在约1100万张图像的多样化数据集上训练，包括：iNaturalist 2021（约330万张）、WebVision - 2.0（约150万张随机子集）、imagenet - w21 - webp - wds（约100万张随机子集）、SA - 1B（约22万张随机子集，共20块）、COCO（约12万张）、NABirds（约4.8万张）、Birdsnap v1.1（约4.4万张）、CUB - 200 2011（约1.8万张）、The Birder数据集（约500万张，私有数据集）
引用论文	《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》：https://arxiv.org/abs/2010.11929；《Vision Transformers Need Registers》：https://arxiv.org/abs/2309.16588；《Masked Autoencoders Are Scalable Vision Learners》：https://arxiv.org/abs/2111.06377

模型使用

💻 使用示例

基础用法

import torch
import birder
from PIL import Image

(net, model_info) = birder.load_pretrained_model("vit_reg4_b16_mim_300", inference=True)

# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)

# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)

image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
    embedding = net.embedding(input_tensor)
    # embedding is a tensor with shape of (1, 768)

高级用法

import torch
import birder
from PIL import Image

# Must first download the model files
(net, cfg) = birder.load_model_with_cfg("models/vit_reg4_b16_mim.json", "models/vit_reg4_b16_mim_300.pt")
net.eval()

# Get the image size the model was trained on
size = birder.get_size_from_signature(cfg["signature"])

# Create an inference transform
transform = birder.classification_transform(size, cfg["rgb_stats"])

image = Image.open("path/to/image.jpeg")
input_tensor = transform(image).unsqueeze(dim=0)
with torch.inference_mode():
    embedding = net.embedding(input_tensor)
    # embedding is a tensor with shape of (1, embedding_size)

引用

@misc{dosovitskiy2021imageworth16x16words,
      title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale}, 
      author={Alexey Dosovitskiy and Lucas Beyer and Alexander Kolesnikov and Dirk Weissenborn and Xiaohua Zhai and Thomas Unterthiner and Mostafa Dehghani and Matthias Minderer and Georg Heigold and Sylvain Gelly and Jakob Uszkoreit and Neil Houlsby},
      year={2021},
      eprint={2010.11929},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2010.11929}, 
}

@misc{darcet2024visiontransformersneedregisters,
      title={Vision Transformers Need Registers}, 
      author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2024},
      eprint={2309.16588},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2309.16588}, 
}

@misc{he2021maskedautoencodersscalablevision,
      title={Masked Autoencoders Are Scalable Vision Learners}, 
      author={Kaiming He and Xinlei Chen and Saining Xie and Yanghao Li and Piotr Dollár and Ross Girshick},
      year={2021},
      eprint={2111.06377},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2111.06377}, 
}