V

Vit Msn Base

facebookによって開発
MSN手法で事前学習されたビジョントランスフォーマーモデルで、少数ショット画像分類タスクに適しています
ダウンロード数 694
リリース時間 : 9/9/2022

モデル概要

このモデルはMasked Siamese Networks手法で事前学習され、画像の内在的表現を学習し、特にラベルサンプルが限られた下流タスクに適しています

モデル特徴

少数ショット学習
MSN事前学習手法により、ラベルサンプルが限られた状況でも良好な性能を発揮します
結合埋め込みアーキテクチャ
マスクされた画像パッチのプロトタイプとマスクされていない画像パッチのプロトタイプをマッチングさせ、よりロバストな表現を学習します
Transformerベース
ビジョントランスフォーマーアーキテクチャを採用し、画像パッチシーケンス形式で入力を処理します

モデル能力

画像特徴抽出
少数ショット画像分類

使用事例

コンピュータビジョン
画像分類
ラベルデータが限られた状況で画像分類タスクを実行
少数ショットや極少数ショットのシナリオで優れた性能を発揮
特徴抽出
下流タスク用の画像特徴を抽出するバックボーンネットワークとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase