R

Rope Vit Reg4 B14 Capi Imagenet21k

birder-projectによって開発
RoPEを採用したViT画像分類モデルで、CAPI事前トレーニングとImageNet-21Kファインチューニングを経ており、画像分類や検出タスクに適しています。
ダウンロード数 40
リリース時間 : 5/10/2025

モデル概要

このモデルはVision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、回転位置エンコーディング(RoPE)技術を採用しています。2段階のトレーニングプロセス(CAPI事前トレーニングとImageNet-21Kファインチューニング)により性能を最適化し、画像分類、特徴抽出、検出タスクをサポートします。

モデル特徴

回転位置エンコーディング(RoPE)
EVAスタイルの回転位置エンコーディングを採用し、異なる解像度入力時の柔軟な設定をサポートし、モデルの性能を最適化します。
2段階トレーニングプロセス
最初にCAPI事前トレーニングを行い、その後ImageNet-21Kデータセットでファインチューニングし、モデルの性能を向上させます。
マルチタスクサポート
画像分類だけでなく、特徴抽出や物体検出タスクにも使用できます。

モデル能力

画像分類
特徴抽出
物体検出

使用事例

コンピュータビジョン
鳥類識別
このモデルを使用して鳥類の画像分類と識別を行います。
画像特徴抽出
画像検索や類似度計算などの下流タスクのために画像特徴を抽出します。
物体検出
物体検出タスクのバックボーンネットワークとして使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase