V

Vit Large Patch16 384

googleによって開発
ビジョントランスフォーマー(ViT)は、トランスフォーマーアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前学習され、その後ImageNetでファインチューニングされます。
ダウンロード数 161.29k
リリース時間 : 3/2/2022

モデル概要

このモデルはトランスフォーマーエンコーダー構造を使用し、画像を固定サイズのパッチに分割して処理します。主に画像分類タスクに使用されます。

モデル特徴

トランスフォーマーベースのビジョンモデル
自然言語処理で成功したトランスフォーマーアーキテクチャをコンピュータビジョンタスクに適用
大規模事前学習
最初にImageNet-21k(1400万画像)で事前学習し、その後ImageNet(100万画像)でファインチューニング
高解像度処理
ファインチューニング段階で384x384解像度を使用し、事前学習の224x224解像度よりも高い

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を1000のImageNetカテゴリのいずれかに分類
ImageNetベンチマークで優れた性能を発揮
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase