rope_vit_reg4_b14_capi-imagenet21k开源图像模型 - 免费用于图像分类和检测任务

首页

Rope Vit Reg4 B14 Capi Imagenet21k

由 birder-project 开发

采用RoPE的ViT图像分类模型，经过CAPI预训练和ImageNet-21K微调，适用于图像分类和检测任务。

图像分类

PyTorch

开源协议:Apache-2.0 #旋转位置编码ViT #高分辨率适应 #两阶段训练

下载量 40

发布时间 : 5/10/2025

模型简介

该模型是一个基于Vision Transformer (ViT)架构的图像分类模型，采用了旋转位置编码(RoPE)技术。通过两阶段训练流程（CAPI预训练和ImageNet-21K微调）优化性能，支持图像分类、特征提取和检测任务。

模型特点

旋转位置编码(RoPE)

采用EVA风格的旋转位置编码，支持不同分辨率输入时的灵活配置，优化模型表现。

两阶段训练流程

先进行CAPI预训练，然后在ImageNet-21K数据集上微调，提升模型性能。

多任务支持

不仅支持图像分类，还可用于特征提取和目标检测任务。

模型能力

图像分类

特征提取

目标检测

使用案例

计算机视觉

鸟类识别

利用该模型进行鸟类图像分类和识别。

图像特征提取

提取图像特征用于下游任务，如图像检索或相似度计算。

目标检测

作为骨干网络用于目标检测任务。

🚀 rope_vit_reg4_b14_capi-imagenet21k模型卡片

这是一个基于RoPE的ViT图像分类模型。该模型采用两阶段训练流程：首先进行CAPI预训练，然后在ImageNet-21K数据集上进行微调。

🚀 快速开始

本模型是一个RoPE ViT图像分类模型，采用两阶段训练，先进行CAPI预训练，再在ImageNet-21K数据集上微调。

✨ 主要特性

RoPE配置：本模型实现了EVA风格的旋转位置嵌入（RoPE）。当处理与训练分辨率（224x224）不同的分辨率时，可以通过配置pt_grid_size参数来优化模型行为。
- 在较高分辨率下进行推理或进行“浅层”微调时，建议显式设置pt_grid_size=(16, 16)（预训练期间的默认网格大小）。
- 在较高分辨率下进行激进微调时，将pt_grid_size保留为None，以使模型适应新的分辨率。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

基础用法

图像分类

import birder
from birder.inference.classification import infer_image

(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)

# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)

# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)

image = "path/to/image.jpeg"  # or a PIL image, must be loaded in RGB format
(out, _) = infer_image(net, image, transform)
# out is a NumPy array with shape of (1, 19167), representing class probabilities.

图像嵌入

import birder
from birder.inference.classification import infer_image

(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)

# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)

# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)

image = "path/to/image.jpeg"  # or a PIL image
(out, embedding) = infer_image(net, image, transform, return_embedding=True)
# embedding is a NumPy array with shape of (1, 768)

检测特征图

from PIL import Image
import birder

(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)

# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)

# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)

image = Image.open("path/to/image.jpeg")
features = net.detection_features(transform(image).unsqueeze(0))
# features is a dict (stage name -> torch.Tensor)
print([(k, v.size()) for k, v in features.items()])
# Output example:
# [('neck', torch.Size([1, 768, 16, 16]))]

高级用法

设置`pt_grid_size`进行推理

# When running inference with a custom resolution (e.g., 336x336)
python predict.py --network rope_vit_reg4_b14 -t capi-imagenet21k --model-config '{"pt_grid_size":[16, 16]}' --size 336 ...

转换具有显式RoPE配置的模型

python tool.py convert-model --network rope_vit_reg4_b14 -t capi-imagenet21k --add-config '{"pt_grid_size":[16, 16]}'

📚 详细文档

模型详情

属性	详情
模型类型	图像分类和检测骨干网络
模型统计信息	参数（M）：100.5；输入图像大小：224 x 224
数据集	ImageNet-21K（19167个类别）
论文

- [An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale](https://arxiv.org/abs/2010.11929)
- [Rotary Position Embedding for Vision Transformer](https://arxiv.org/abs/2403.13298)
- [Vision Transformers Need Registers](https://arxiv.org/abs/2309.16588)
- [Cluster and Predict Latent Patches for Improved Masked Image Modeling](https://arxiv.org/abs/2502.08769) |

🔧 技术细节

文档未提供足够的技术实现细节（未超过50字），故跳过此章节。

📄 许可证

本项目采用Apache-2.0许可证。

📖 引用

@misc{dosovitskiy2021imageworth16x16words,
      title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale}, 
      author={Alexey Dosovitskiy and Lucas Beyer and Alexander Kolesnikov and Dirk Weissenborn and Xiaohua Zhai and Thomas Unterthiner and Mostafa Dehghani and Matthias Minderer and Georg Heigold and Sylvain Gelly and Jakob Uszkoreit and Neil Houlsby},
      year={2021},
      eprint={2010.11929},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2010.11929}, 
}

@misc{heo2024rotarypositionembeddingvision,
      title={Rotary Position Embedding for Vision Transformer},
      author={Byeongho Heo and Song Park and Dongyoon Han and Sangdoo Yun},
      year={2024},
      eprint={2403.13298},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2403.13298},
}

@misc{darcet2024visiontransformersneedregisters,
      title={Vision Transformers Need Registers}, 
      author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2024},
      eprint={2309.16588},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2309.16588}, 
}

@misc{darcet2025clusterpredictlatentpatches,
      title={Cluster and Predict Latent Patches for Improved Masked Image Modeling},
      author={Timothée Darcet and Federico Baldassarre and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2025},
      eprint={2502.08769},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.08769},
}