V

Vit Large Patch32 384

googleによって開発
このビジュアルTransformer(ViT)モデルは、まずImageNet - 21kデータセットで事前学習され、その後ImageNetデータセットで微調整され、画像分類タスクに適しています。
ダウンロード数 118.37k
リリース時間 : 3/2/2022

モデル概要

このモデルはBERTに似たTransformerエンコーダモデルで、監督方式でImageNet - 21kの大規模画像セットで事前学習され、その後より高解像度のImageNetデータセットで微調整されます。

モデル特徴

大規模事前学習
モデルはまずImageNet - 21kデータセット(1400万枚の画像、21,843個のカテゴリ)で事前学習され、画像の内在的な表現を学習します。
高解像度微調整
ImageNetデータセットで384x384の解像度で微調整され、分類性能が向上します。
Transformerエンコーダ
BERTに似たTransformerエンコーダ構造を採用し、画像を固定サイズのシーケンスブロックに処理して線形埋め込みします。

モデル能力

画像分類
特徴抽出

使用事例

画像分類
ImageNet分類
画像を1,000個のImageNetカテゴリの1つに分類します。
ImageNetデータセットで優れた性能を発揮します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase