V

Vit Base Patch32 384

googleによって開発
Vision Transformer(ViT)はTransformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kとImageNetデータセットで事前学習とファインチューニングを行い、効率的な画像認識能力を実現しています。
ダウンロード数 24.92k
リリース時間 : 3/2/2022

モデル概要

ViTモデルは画像を固定サイズのパッチに分割し、Transformerエンコーダーで特徴抽出を行い、画像分類タスクに適しています。モデルはImageNet-21kで事前学習され、ImageNetでファインチューニングされ、高解像度画像処理をサポートします。

モデル特徴

Transformerベースの画像処理
画像を固定サイズのパッチに分割し、Transformerエンコーダーで特徴を抽出することで、従来のCNNの制限を突破しました。
高解像度ファインチューニング
ImageNetで384x384解像度でファインチューニングを行い、高解像度画像での分類性能を向上させました。
大規模事前学習
ImageNet-21k(1400万枚の画像、21,843クラス)で事前学習を行い、豊富な画像特徴表現を学習しました。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1,000のImageNetクラスのいずれかに分類します。
ImageNetデータセットで優れた性能を示し、具体的な性能指標は原論文を参照してください。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase