V

Vit Msn Large

facebookによって開発
MSN手法で事前学習された視覚Transformerモデルで、少数ショットシナリオで優れた性能を発揮
ダウンロード数 48
リリース時間 : 9/9/2022

モデル概要

この視覚TransformerモデルはMasked Siamese Networks手法で事前学習されており、注釈データが限られた画像分類タスクに特に適しており、画像の内在的な表現を学習して下流タスクに転移可能

モデル特徴

少数ショット学習能力
MSN事前学習手法により、注釈データが限られたシナリオでも優れた性能を維持
共同埋め込みアーキテクチャ
マスクパッチとプロトタイプパッチのマッチングという独特な訓練方式を採用
転移学習に適している
事前学習された表現は様々な下流視覚タスクに容易に転移可能

モデル能力

画像特徴抽出
少数ショット画像分類
視覚表現学習

使用事例

コンピュータビジョン
少数ショット画像分類
注釈サンプルが限られた状況で画像分類を実現
少数ショットおよび極少数ショットシナリオで卓越した性能
視覚特徴抽出
基本エンコーダーとして画像特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase