V

Vit Reg4 B16 Mim

birder-projectによって開発
マスク画像モデリング(MIM)事前学習済みのViT reg4画像エンコーダーで、汎用特徴抽出や下流視覚タスクに適しています
ダウンロード数 70
リリース時間 : 4/25/2025

モデル概要

これはマスク画像モデリング手法で事前学習されたVision Transformerモデルで、特定の分類タスクに微調整されていません。汎用画像特徴抽出器や、物体検出・セグメンテーションなどの下流視覚タスクのバックボーンネットワークとして使用できます

モデル特徴

マスク画像モデリング事前学習
MAE(Masked Autoencoder)手法を用いた自己教師あり事前学習により、強力な視覚表現能力を学習
レジスタ強化アーキテクチャ
ViT reg4アーキテクチャを採用し、モデル性能向上のためのレジスタトークンを含む
多様な訓練データ
約1100万枚の多様な画像で訓練され、自然風景や鳥類など様々な視覚領域をカバー

モデル能力

画像特徴抽出
視覚表現学習
下流タスクバックボーンネットワーク

使用事例

コンピュータビジョン
鳥類識別
鳥類識別システムの特徴抽出器として使用
物体検出
物体検出タスクのバックボーンネットワークとして使用
画像セグメンテーション
意味的セグメンテーションタスクのエンコーダーとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase