V

Vit Huge Patch14 224 In21k

googleによって開発
ImageNet-21kで事前学習されたビジュアルTransformerモデルで、超大サイズのアーキテクチャを採用し、画像分類などのビジュアルタスクに適しています。
ダウンロード数 47.78k
リリース時間 : 3/2/2022

モデル概要

このビジュアルTransformer(ViT)モデルはImageNet-21kデータセットで事前学習され、画像を固定サイズのパッチシーケンスに分割して処理し、下流のタスクで画像特徴を抽出するのに適しています。

モデル特徴

大規模事前学習
ImageNet-21k(1400万枚の画像、21,843カテゴリ)で事前学習され、豊富な画像特徴表現を学習しました。
Transformerアーキテクチャ
BERTに似たTransformerエンコーダアーキテクチャを採用して画像パッチシーケンスを処理し、従来のCNNの制限を突破します。
高解像度処理
224x224ピクセルの解像度入力をサポートし、16x16のパッチ分割方式で画像を処理します。

モデル能力

画像特徴抽出
画像分類

使用事例

コンピュータビジョン
画像分類
画像を分類し、画像内の主要なオブジェクトやシーンを識別するのに使用できます。
ImageNetなどのベンチマークテストで優れた性能を発揮します(具体的な数値は提供されていません)。
特徴抽出
下流のビジュアルタスク(物体検出、画像セグメンテーションなど)の特徴抽出器として使用できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase