V

Vit Huge Patch14 224.mae

timmによって開発
視覚Transformer(ViT)に基づく大規模画像特徴抽出モデルで、自己教師ありマスク自己符号化器(MAE)手法を用いてImageNet-1kデータセットで事前学習済み
ダウンロード数 104
リリース時間 : 5/9/2023

モデル概要

これは視覚Transformerアーキテクチャに基づく画像特徴抽出モデルで、主に画像分類や特徴抽出タスクに使用されます。マスク自己符号化器(MAE)の自己教師あり学習手法で事前学習されており、画像の高レベルな特徴表現を効果的に捉えることができます。

モデル特徴

大規模視覚Transformer
ViT-Hugeアーキテクチャを採用し、6.3億パラメータを含み、複雑な視覚特徴を処理可能
自己教師あり事前学習
マスク自己符号化器(MAE)手法を使用した事前学習で、大量の注釈データを必要としない
高解像度処理
224×224ピクセルの画像入力をサポートし、より詳細な視覚特徴を捉えることが可能

モデル能力

画像特徴抽出
画像分類
視覚表現学習

使用事例

コンピュータビジョン
画像分類
画像内容の分類に使用可能(物体認識、シーン認識など)
特徴抽出
下流の視覚タスクに高品質な画像表現を提供する特徴抽出器として使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase