V

Vit Base Patch16 384

googleによって開発
Vision Transformer(ViT)はTransformerアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前トレーニングされ、その後ImageNetでファインチューニングされます。
ダウンロード数 30.30k
リリース時間 : 3/2/2022

モデル概要

このモデルは画像を固定サイズのパッチに分割し、Transformerエンコーダーを適用して画像分類を行い、1,000のImageNetカテゴリをサポートします。

モデル特徴

Transformerベースの画像処理
画像を16x16のパッチに分割しTransformerエンコーダーを適用することで、従来のCNNの画像処理における限界を突破しました。
大規模事前トレーニング
最初にImageNet-21k(1400万画像)で事前トレーニングし、その後ImageNet(100万画像)でファインチューニングすることで、豊富な画像特徴表現を学習します。
高解像度ファインチューニング
ファインチューニング時には384x384解像度を使用し、事前トレーニング時の224x224解像度と比較してより詳細な画像特徴を捉えることができます。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
入力画像を1,000のImageNetカテゴリのいずれかに分類します。
ImageNetデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase