V

Vit Base Patch16 224.mae

timmによって開発
Vision Transformer(ViT)ベースの画像特徴抽出モデル。自己教師ありマスク自己エンコーダ(MAE)手法を用いてImageNet-1kデータセットで事前学習済み
ダウンロード数 23.63k
リリース時間 : 5/9/2023

モデル概要

これはVision Transformerアーキテクチャに基づく画像特徴抽出モデルで、主に画像分類や特徴抽出タスクに使用されます。マスク自己エンコーダ(MAE)による自己教師あり学習方法で事前学習されており、効果的に画像特徴を捉えることができます。

モデル特徴

自己教師あり事前学習
マスク自己エンコーダ(MAE)手法による自己教師あり事前学習で、大量の注釈データが不要
効率的な特徴抽出
Vision Transformerアーキテクチャに基づき、効果的に画像特徴を抽出可能
中規模モデル
8580万パラメータ規模で、計算効率と性能のバランスを実現

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
物体カテゴリ認識など、画像の分類に使用可能
特徴抽出
他の視覚タスクの特徴抽出器として利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase