V

Vit L16 Mim

birder-projectによって開発
マスク画像モデリング(MIM)で事前学習されたViT-L16画像エンコーダーで、汎用特徴抽出や下流タスクに適しています
ダウンロード数 73
リリース時間 : 1/24/2025

モデル概要

このモデルはVision Transformerアーキテクチャに基づく画像エンコーダーで、マスク画像モデリングで事前学習されており、特定の分類タスク用に微調整されていません。物体検出、セグメンテーション、またはカスタム分類タスクのバックボーンネットワークとして適しています。

モデル特徴

マスク画像モデリング事前学習
自己教師ありのマスク画像モデリング手法で事前学習されており、より汎用的な画像特徴表現を学習できます
大規模多様データセット
約1100万枚の多様な画像で訓練されており、自然風景や鳥類など多分野のデータをカバーしています
汎用特徴抽出
特定タスク用に微調整されていないため、様々な視覚タスクのバックボーンネットワークとして使用可能

モデル能力

画像特徴抽出
画像埋め込み生成
視覚表現学習

使用事例

コンピュータビジョン
鳥類識別
鳥類識別システムの特徴抽出器として使用
物体検出
物体検出モデルのバックボーンネットワークとして使用
画像セグメンテーション
画像セグメンテーションモデルのエンコーダー部分として使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase