V

Vit Base Patch32 224.orig In21k

timmによって開発
Vision Transformer (ViT)ベースの画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングのシナリオに適しています。
ダウンロード数 438
リリース時間 : 11/17/2023

モデル概要

このモデルはVision Transformerアーキテクチャに基づく画像分類モデルで、論文著者がImageNet-21kデータセットでJAXを使用して事前学習し、その後PyTorchに移植されました。モデルには分類ヘッドが含まれておらず、特徴抽出や下流タスクのファインチューニングに適しています。

モデル特徴

Transformerアーキテクチャベース
Vision Transformerアーキテクチャを採用し、画像を32x32のパッチに分割して処理するため、大規模な画像認識タスクに適しています。
事前学習済み重み
ImageNet-21k大規模データセットで事前学習されており、強力な特徴抽出能力を備えています。
柔軟な特徴抽出
モデルには分類ヘッドが含まれていないため、特徴抽出や下流タスクのファインチューニングに直接使用できます。

モデル能力

画像特徴抽出
画像分類
転移学習

使用事例

コンピュータビジョン
画像分類
事前学習モデルを使用して画像分類タスクを実行するか、特定ドメインの分類器をファインチューニングします。
特徴抽出
画像の高レベル特徴表現を抽出し、物体検出や画像検索などの下流タスクに使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase