V

Vit Small Patch16 224.dino

timmによって開発
視覚Transformer(ViT)ベースの画像特徴モデルで、自己教師ありDINO手法でトレーニングされ、画像分類や特徴抽出タスクに適しています。
ダウンロード数 70.62k
リリース時間 : 12/22/2022

モデル概要

このモデルは視覚Transformer(ViT)ベースの画像特徴モデルで、自己教師ありDINO手法でトレーニングされています。主に画像分類や特徴バックボーンネットワークとして使用され、様々なコンピュータビジョンタスクに適用可能です。

モデル特徴

自己教師あり学習
DINO自己教師あり学習手法を採用しており、大量のアノテーションデータがなくても効果的な視覚表現を学習できます。
効率的なアーキテクチャ
Vision Transformerアーキテクチャベースで、パラメータ数は21.7M、GMACs演算量は4.3で、中規模計算ニーズに適しています。
マルチタスクサポート
画像分類だけでなく、特徴抽出バックボーンネットワークとしても使用可能で、様々な下流コンピュータビジョンタスクをサポートします。

モデル能力

画像特徴抽出
画像分類
コンピュータビジョンタスクサポート

使用事例

コンピュータビジョン
画像分類
入力画像を分類し、クラス確率分布を出力します。
ImageNet-1kデータセットで良好な性能を発揮
特徴抽出
画像の深層特徴表現を抽出し、物体検出や画像検索などの下流タスクに利用可能です。
384次元特徴ベクトルを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase