V

Vit Msn Large 7

facebookによって開発
この視覚TransformerモデルはMSN手法で事前学習されており、少数ショットシナリオで優れた性能を発揮し、画像分類などのタスクに適しています
ダウンロード数 67
リリース時間 : 9/9/2022

モデル概要

マスクされた双子ネットワーク(MSN)事前学習に基づく視覚Transformerモデルで、マスクされた画像ブロックとマスクされていないブロックのプロトタイプをマッチングすることで画像表現を学習し、特にアノテーションデータが限られたシナリオに適しています

モデル特徴

少数ショット学習能力
MSN事前学習手法を採用し、アノテーションデータが限られた状況でも優れた性能を維持できます
共同埋め込みアーキテクチャ
マスクされたブロックとマスクされていないブロックのプロトタイプをマッチングすることで画像表現を学習します
大規模事前学習
ImageNet-1kデータセットに基づいて事前学習され、一般的な視覚特徴を学習します

モデル能力

画像特徴抽出
画像分類
少数ショット学習

使用事例

コンピュータビジョン
画像分類
アノテーションデータが限られた状況で画像分類タスクを実行
少数ショットおよび極少数ショットシナリオで卓越した性能を発揮
特徴抽出
下流タスクのための画像特徴を抽出するバックボーンネットワークとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase