V

Vit Huge Patch14 224.orig In21k

timmによって開発
Vision Transformer (ViT)アーキテクチャに基づく大規模画像特徴抽出モデルで、ImageNet-21kデータセットで事前学習済み
ダウンロード数 3,214
リリース時間 : 12/22/2022

モデル概要

これは分類ヘッドを含まないVision Transformerモデルで、主に画像特徴抽出と下流タスクのファインチューニングに使用されます。モデルは14x14のパッチサイズと224x224の入力解像度を採用しています。

モデル特徴

大規模事前学習
21000クラスを含むImageNet-21kデータセットで事前学習されており、強力な特徴抽出能力を有する
Transformerアーキテクチャ
純粋なTransformerアーキテクチャを使用して画像を処理し、従来のCNNの畳み込み操作が不要
高解像度処理
224x224ピクセルの入力解像度と14x14のパッチサイズをサポート
柔軟な応用
特徴抽出器として使用したり、下流タスクのファインチューニングに使用でき、分類ヘッドの削除もサポート

モデル能力

画像特徴抽出
画像分類
転移学習
コンピュータビジョンタスク

使用事例

コンピュータビジョン
画像分類
21000クラスの大規模画像分類タスクに使用
特徴抽出
物体検出や画像セグメンテーションなどの下流タスクに使用する画像特徴を抽出
転移学習
特定領域のデータセットでモデルをファインチューニングし、特定タスクの要件に適応
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase