V

Vit Large Patch32 224 In21k

googleによって開発
このビジュアルTransformer(ViT)モデルは、ImageNet-21kデータセットで事前学習され、画像分類タスクに適しています。
ダウンロード数 4,943
リリース時間 : 3/2/2022

モデル概要

ビジュアルTransformer(ViT)は、Transformerアーキテクチャに基づく視覚モデルで、教師あり学習によりImageNet-21kデータセットで事前学習され、主に画像分類タスクに使用されます。

モデル特徴

大規模な事前学習
ImageNet-21kデータセット(1400万枚の画像、21,843のクラス)で事前学習を行い、豊富な画像表現を学習します。
Transformerアーキテクチャ
BERTに似たTransformerエンコーダーアーキテクチャを採用し、画像を固定サイズのパッチに分割して処理します。
高解像度対応
224x224ピクセル解像度の画像入力をサポートし、より高い解像度(例:384x384)に拡張してより良い性能を得ることができます。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
画像分類
画像を分類し、画像内のオブジェクトやシーンを識別するために使用できます。
ImageNetなどのベンチマークテストで優れた性能を発揮します。
下流タスクの特徴抽出
特徴抽出器として使用し、他のコンピュータビジョンタスク(物体検出、画像セグメンテーションなど)に基本的な特徴を提供できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase