V

Vit Msn Base 4

facebookによって開発
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
ダウンロード数 62
リリース時間 : 9/9/2022

モデル概要

MSN(Masked Siamese Networks)手法で事前学習された視覚Transformerモデルで、マスクブロックとプロトタイプのマッチングを通じて画像表現を学習し、注釈データが限られた下流タスクに特に適しています

モデル特徴

少数ショット学習の利点
MSN事前学習手法を採用しており、注釈データが限られたシナリオでも優れた性能を維持できます
共同埋め込みアーキテクチャ
マスクブロックと非マスクプロトタイプのマッチングを通じて画像表現を学習します
ブロック処理
画像を4x4のブロックシーケンスに分割して処理し、局所的な画像特徴の処理に適しています

モデル能力

画像特徴抽出
画像分類
少数ショット学習

使用事例

コンピュータビジョン
画像分類
限られた注釈データで高精度な画像分類を実現
少数ショットおよび極少数ショットシナリオで優れた性能を発揮
特徴抽出
下流タスク用に画像特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase