V

Vit Base R50 S16 224.orig In21k

timmによって開発
ResNetとVision Transformerを組み合わせたハイブリッド画像分類モデルで、ImageNet-21kで事前学習されており、特徴抽出やファインチューニングに適しています。
ダウンロード数 876
リリース時間 : 12/23/2022

モデル概要

このモデルはResNetとVision Transformer(ViT)を組み合わせたハイブリッド画像分類モデルで、論文著者がJAXフレームワークでImageNet-21kを用いて事前学習した後、PyTorchに移植されました。分類ヘッドを含まず、特徴抽出やファインチューニングに適しています。

モデル特徴

ハイブリッドアーキテクチャ
ResNetとVision Transformerの利点を組み合わせ、画像特徴抽出能力を向上させています。
事前学習モデル
大規模データセットImageNet-21kで事前学習されており、強力な特徴抽出能力を持っています。
柔軟な応用
分類ヘッドを含まないため、特徴抽出やファインチューニングに適しています。

モデル能力

画像分類
画像特徴抽出

使用事例

コンピュータビジョン
画像分類
このモデルを使用して画像分類タスクを実行し、複数のカテゴリ認識をサポートします。
特徴抽出
画像の高レベル特徴を抽出し、物体検出や画像セグメンテーションなどの後続タスクに使用します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase