V

Vit Large Patch16 224 In21k

googleによって開発
ImageNet-21kデータセットで事前学習されたVision Transformerモデルで、画像特徴抽出や下流タスクのファインチューニングに適しています。
ダウンロード数 92.63k
リリース時間 : 3/2/2022

モデル概要

このモデルはBERTに類似したTransformerエンコーダーで、ImageNet-21kデータセットで教師あり学習により事前学習されており、主に画像特徴抽出や分類タスクに使用されます。

モデル特徴

ImageNet-21k事前学習
1400万枚の画像と21,843クラスを含むImageNet-21kデータセットで事前学習されており、強力な特徴抽出能力を持っています。
16x16画像パッチ分割
画像を16x16ピクセルの固定サイズパッチに分割し、線形埋め込みを通じてTransformerエンコーダーに入力します。
事前学習済みプーラーを含む
モデルには事前学習済みのプーラーが含まれており、下流タスクの特徴抽出に直接使用でき、ゼロから訓練する必要がありません。

モデル能力

画像特徴抽出
画像分類
下流タスクのファインチューニング

使用事例

コンピュータビジョン
画像分類
事前学習モデルに線形層を追加し、特定の画像分類タスクに使用します。
ImageNetなどのベンチマークデータセットで優れた性能を発揮します。
特徴抽出
画像の特徴表現を抽出し、物体検出や画像セグメンテーションなどの他の視覚タスクに使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase