V

Vit Large Patch16 224.orig In21k

timmによって開発
Vision Transformer(ViT)ベースの画像分類モデルで、Google ResearchがJAXフレームワークでImageNet-21kで事前学習後、PyTorchに移植。特徴抽出やファインチューニングに適しています。
ダウンロード数 584
リリース時間 : 11/17/2023

モデル概要

これは大規模なVision Transformerモデルで、画像分類と特徴抽出専用です。ImageNet-21kデータセットで事前学習されており、分類ヘッドを含まないため、下流タスクのファインチューニング用のバックボーンネットワークとして適しています。

モデル特徴

大規模事前学習
ImageNet-21k大規模データセットで事前学習されており、強力な特徴抽出能力を有する
純粋なTransformerアーキテクチャ
完全にTransformerアーキテクチャに基づいており、畳み込み操作を使用せず、グローバルな画像情報処理に適している
柔軟な特徴抽出
プーリング特徴量や非プーリングシーケンス特徴量など、異なるレベルの特徴表現を出力可能
効率的な計算
比較的大きなモデルサイズでも合理的な計算量(59.7 GMACs)を維持

モデル能力

画像特徴抽出
画像分類
転移学習
コンピュータビジョンタスク

使用事例

コンピュータビジョン
画像分類
バックボーンネットワークとして画像分類タスクに使用可能で、特定の分類ニーズに合わせてファインチューニングできる
特徴抽出
画像の高レベル特徴表現を抽出し、物体検出や画像セグメンテーションなどの下流タスクに利用可能
転移学習
事前学習済み重みを出発点として、小規模データセットでファインチューニング可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase