Rope Vit Reg4 B14 Capi Imagenet21k
R
Rope Vit Reg4 B14 Capi Imagenet21k
由birder-project開發
採用RoPE的ViT圖像分類模型,經過CAPI預訓練和ImageNet-21K微調,適用於圖像分類和檢測任務。
下載量 40
發布時間 : 5/10/2025
模型概述
該模型是一個基於Vision Transformer (ViT)架構的圖像分類模型,採用了旋轉位置編碼(RoPE)技術。通過兩階段訓練流程(CAPI預訓練和ImageNet-21K微調)優化性能,支持圖像分類、特徵提取和檢測任務。
模型特點
旋轉位置編碼(RoPE)
採用EVA風格的旋轉位置編碼,支持不同分辨率輸入時的靈活配置,優化模型表現。
兩階段訓練流程
先進行CAPI預訓練,然後在ImageNet-21K數據集上微調,提升模型性能。
多任務支持
不僅支持圖像分類,還可用於特徵提取和目標檢測任務。
模型能力
圖像分類
特徵提取
目標檢測
使用案例
計算機視覺
鳥類識別
利用該模型進行鳥類圖像分類和識別。
圖像特徵提取
提取圖像特徵用於下游任務,如圖像檢索或相似度計算。
目標檢測
作為骨幹網絡用於目標檢測任務。
🚀 rope_vit_reg4_b14_capi-imagenet21k模型卡片
這是一個基於RoPE的ViT圖像分類模型。該模型採用兩階段訓練流程:首先進行CAPI預訓練,然後在ImageNet-21K
數據集上進行微調。
🚀 快速開始
本模型是一個RoPE ViT圖像分類模型,採用兩階段訓練,先進行CAPI預訓練,再在ImageNet-21K
數據集上微調。
✨ 主要特性
- RoPE配置:本模型實現了EVA風格的旋轉位置嵌入(RoPE)。當處理與訓練分辨率(224x224)不同的分辨率時,可以通過配置
pt_grid_size
參數來優化模型行為。- 在較高分辨率下進行推理或進行“淺層”微調時,建議顯式設置
pt_grid_size=(16, 16)
(預訓練期間的默認網格大小)。 - 在較高分辨率下進行激進微調時,將
pt_grid_size
保留為None
,以使模型適應新的分辨率。
- 在較高分辨率下進行推理或進行“淺層”微調時,建議顯式設置
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
圖像分類
import birder
from birder.inference.classification import infer_image
(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)
# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)
# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)
image = "path/to/image.jpeg" # or a PIL image, must be loaded in RGB format
(out, _) = infer_image(net, image, transform)
# out is a NumPy array with shape of (1, 19167), representing class probabilities.
圖像嵌入
import birder
from birder.inference.classification import infer_image
(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)
# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)
# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)
image = "path/to/image.jpeg" # or a PIL image
(out, embedding) = infer_image(net, image, transform, return_embedding=True)
# embedding is a NumPy array with shape of (1, 768)
檢測特徵圖
from PIL import Image
import birder
(net, model_info) = birder.load_pretrained_model("rope_vit_reg4_b14_capi-imagenet21k", inference=True)
# Get the image size the model was trained on
size = birder.get_size_from_signature(model_info.signature)
# Create an inference transform
transform = birder.classification_transform(size, model_info.rgb_stats)
image = Image.open("path/to/image.jpeg")
features = net.detection_features(transform(image).unsqueeze(0))
# features is a dict (stage name -> torch.Tensor)
print([(k, v.size()) for k, v in features.items()])
# Output example:
# [('neck', torch.Size([1, 768, 16, 16]))]
高級用法
設置pt_grid_size
進行推理
# When running inference with a custom resolution (e.g., 336x336)
python predict.py --network rope_vit_reg4_b14 -t capi-imagenet21k --model-config '{"pt_grid_size":[16, 16]}' --size 336 ...
轉換具有顯式RoPE配置的模型
python tool.py convert-model --network rope_vit_reg4_b14 -t capi-imagenet21k --add-config '{"pt_grid_size":[16, 16]}'
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 圖像分類和檢測骨幹網絡 |
模型統計信息 | 參數(M):100.5;輸入圖像大小:224 x 224 |
數據集 | ImageNet-21K(19167個類別) |
論文 |
- [An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale](https://arxiv.org/abs/2010.11929)
- [Rotary Position Embedding for Vision Transformer](https://arxiv.org/abs/2403.13298)
- [Vision Transformers Need Registers](https://arxiv.org/abs/2309.16588)
- [Cluster and Predict Latent Patches for Improved Masked Image Modeling](https://arxiv.org/abs/2502.08769) |
🔧 技術細節
文檔未提供足夠的技術實現細節(未超過50字),故跳過此章節。
📄 許可證
本項目採用Apache-2.0許可證。
📖 引用
@misc{dosovitskiy2021imageworth16x16words,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Alexey Dosovitskiy and Lucas Beyer and Alexander Kolesnikov and Dirk Weissenborn and Xiaohua Zhai and Thomas Unterthiner and Mostafa Dehghani and Matthias Minderer and Georg Heigold and Sylvain Gelly and Jakob Uszkoreit and Neil Houlsby},
year={2021},
eprint={2010.11929},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2010.11929},
}
@misc{heo2024rotarypositionembeddingvision,
title={Rotary Position Embedding for Vision Transformer},
author={Byeongho Heo and Song Park and Dongyoon Han and Sangdoo Yun},
year={2024},
eprint={2403.13298},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2403.13298},
}
@misc{darcet2024visiontransformersneedregisters,
title={Vision Transformers Need Registers},
author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
year={2024},
eprint={2309.16588},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2309.16588},
}
@misc{darcet2025clusterpredictlatentpatches,
title={Cluster and Predict Latent Patches for Improved Masked Image Modeling},
author={Timothée Darcet and Federico Baldassarre and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
year={2025},
eprint={2502.08769},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2502.08769},
}
Nsfw Image Detection
Apache-2.0
基於ViT架構的NSFW圖像分類模型,通過監督學習在ImageNet-21k數據集上預訓練,並在80,000張圖像上微調,用於區分正常和NSFW內容。
圖像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於多類別圖像分類任務
圖像分類
Transformers

F
dima806
76.6M
10
Dinov2 Small
Apache-2.0
基於DINOv2方法訓練的小尺寸視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
圖像分類
V
google
4.8M
775
Vit Base Patch16 224 In21k
Apache-2.0
基於ImageNet-21k數據集預訓練的視覺Transformer模型,用於圖像分類任務。
圖像分類
V
google
2.2M
323
Dinov2 Base
Apache-2.0
基於DINOv2方法訓練的視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
1.9M
126
Gender Classification
一個基於PyTorch和HuggingPics構建的圖像分類模型,用於識別圖像中的性別
圖像分類
Transformers

G
rizvandwiki
1.8M
48
Vit Base Nsfw Detector
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,專門用於檢測圖像是否包含NSFW(不安全)內容。
圖像分類
Transformers

V
AdamCodd
1.2M
47
Vit Hybrid Base Bit 384
Apache-2.0
混合視覺變換器(ViT)模型結合了卷積網絡和Transformer架構,用於圖像分類任務,在ImageNet上表現出色。
圖像分類
Transformers

V
google
992.28k
6
Gender Classification 2
這是一個基於PyTorch框架和HuggingPics工具生成的圖像分類模型,專門用於性別分類任務。
圖像分類
Transformers

G
rizvandwiki
906.98k
32
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98