V

Vit Large Patch16 224.mae

timmによって開発
視覚トランスフォーマー(ViT)ベースの大規模画像特徴抽出モデルで、自己教師ありマスクオートエンコーダ(MAE)手法を用いてImageNet-1kデータセットで事前学習済み
ダウンロード数 960
リリース時間 : 5/9/2023

モデル概要

このモデルは視覚トランスフォーマーアーキテクチャの大規模画像特徴抽出モデルで、主に画像分類と特徴抽出タスクに使用されます。マスクオートエンコーダ(MAE)による自己教師あり学習手法でImageNet-1kデータセットで事前学習されています。

モデル特徴

自己教師あり事前学習
マスクオートエンコーダ(MAE)手法による自己教師あり事前学習を採用し、大量の注釈データなしで有効な特徴表現を学習可能
大規模視覚トランスフォーマー
ViT-Largeアーキテクチャベースで303.3Mパラメータを持ち、豊富な視覚特徴を捉えることが可能
効率的な特徴抽出
画像のグローバル特徴やローカルパッチ特徴の抽出をサポートし、様々な下流視覚タスクに適用可能

モデル能力

画像分類
画像特徴抽出
視覚表現学習

使用事例

コンピュータビジョン
画像分類
画像分類に使用可能で、1000クラスのImageNet分類タスクをサポート
特徴抽出
物体検出や画像セグメンテーションなどの下流視覚タスク用の特徴抽出器として使用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase