R

Rope Vit Reg4 B14 Capi Imagenet21k

由birder-project開發
採用RoPE的ViT圖像分類模型,經過CAPI預訓練和ImageNet-21K微調,適用於圖像分類和檢測任務。
下載量 40
發布時間 : 5/10/2025

模型概述

該模型是一個基於Vision Transformer (ViT)架構的圖像分類模型,採用了旋轉位置編碼(RoPE)技術。通過兩階段訓練流程(CAPI預訓練和ImageNet-21K微調)優化性能,支持圖像分類、特徵提取和檢測任務。

模型特點

旋轉位置編碼(RoPE)
採用EVA風格的旋轉位置編碼,支持不同分辨率輸入時的靈活配置,優化模型表現。
兩階段訓練流程
先進行CAPI預訓練,然後在ImageNet-21K數據集上微調,提升模型性能。
多任務支持
不僅支持圖像分類,還可用於特徵提取和目標檢測任務。

模型能力

圖像分類
特徵提取
目標檢測

使用案例

計算機視覺
鳥類識別
利用該模型進行鳥類圖像分類和識別。
圖像特徵提取
提取圖像特徵用於下游任務,如圖像檢索或相似度計算。
目標檢測
作為骨幹網絡用於目標檢測任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase