V

Vit Base Patch16 224

googleによって開発
ImageNet - 21kで事前学習し、ImageNetでファインチューニングしたビジュアルトランスフォーマーモデルで、画像分類タスクに使用されます。
ダウンロード数 4.8M
リリース時間 : 3/2/2022

モデル概要

ビジュアルトランスフォーマー(ViT)は、BERTに似たトランスフォーマーエンコーダモデルで、画像を固定サイズのパッチシーケンスに分割して処理し、画像分類タスクに適しています。

モデル特徴

トランスフォーマーベースのビジュアルモデル
画像をパッチシーケンスとして処理し、トランスフォーマーアーキテクチャを利用して効率的な特徴抽出を行います。
大規模事前学習
ImageNet - 21k(1400万枚の画像、21kのクラス)で事前学習され、強力な特徴学習能力を持ちます。
高解像度処理
224x224ピクセルの解像度の入力をサポートし、細粒度の画像特徴を捉えることができます。

モデル能力

画像分類
特徴抽出
ビジュアル表現学習

使用事例

汎用画像認識
物体分類
画像を1000のImageNetクラスのいずれかに分類します。
ImageNet検証セットで高い精度を達成します。
特徴抽出
下流タスクのために画像特徴を抽出します。
他のビジョンタスクの事前学習モデルとして使用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase