V

Vit Base Patch16 224.orig In21k

timmによって開発
Vision Transformerに基づく画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています
ダウンロード数 23.07k
リリース時間 : 11/16/2023

モデル概要

これはGoogle Researchチームによって開発され、ImageNet-21kデータセットで事前学習されたVision Transformerアーキテクチャに基づく画像分類モデルです。モデルには分類ヘッドが含まれておらず、特徴抽出のバックボーンネットワークとして、または下流タスクのファインチューニングに適しています。

モデル特徴

大規模事前学習
ImageNet-21k大規模データセットで事前学習されており、強力な特徴抽出能力を持っています
Transformerアーキテクチャ
純粋なTransformerアーキテクチャを使用して画像を処理し、画像を16x16のパッチに分割して処理します
柔軟な応用
特徴抽出のバックボーンネットワークとして、または下流タスクのファインチューニングに使用でき、分類ヘッドの削除をサポートしています

モデル能力

画像特徴抽出
画像分類
転移学習

使用事例

コンピュータビジョン
画像分類
画像分類タスクに使用され、特定の分類ニーズに合わせてモデルを微調整できます
特徴抽出
バックボーンネットワークとして画像特徴を抽出し、物体検出や画像セグメンテーションなどの下流タスクに使用します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase