V

Vit Large Patch16 224

googleによって開発
Transformerアーキテクチャに基づく大規模画像分類モデルで、ImageNet - 21kとImageNet - 1kデータセットで事前学習と微調整を行っています。
ダウンロード数 188.47k
リリース時間 : 3/2/2022

モデル概要

ビジュアルTransformer(ViT)は、Transformerエンコーダに基づく画像分類モデルで、画像を固定サイズのパッチに分割して処理します。このモデルはImageNet - 21kで事前学習され、ImageNet - 1kで微調整され、画像分類タスクに適しています。

モデル特徴

Transformerベースのビジュアル処理
画像を16x16のパッチシーケンスに分割し、BERTに似たTransformerアーキテクチャで処理します。
大規模事前学習
1400万枚の画像を含むImageNet - 21kデータセットで事前学習を行います。
高解像度対応
224x224ピクセルの解像度入力をサポートし、より高い解像度(384x384)ではより良い結果が得られます。

モデル能力

画像分類
ビジュアル特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を1000のImageNetカテゴリに分類します。
ImageNetベンチマークテストで優れた性能を発揮します。
特徴抽出
下流タスクのために画像の特徴を抽出します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase