V

Vit Base Patch16 224

optimumによって開発
Transformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kとImageNet-1kデータセットで事前学習とファインチューニングを実施
ダウンロード数 40
リリース時間 : 6/23/2022

モデル概要

ViTは画像を16x16のパッチに分割し、Transformerエンコーダーで処理する視覚モデルで、主に画像分類タスクに使用されます

モデル特徴

Transformerベースの視覚処理
画像をNLPタスクのようなトークン系列として処理し、革新的にTransformerアーキテクチャを視覚データに適用
大規模事前学習
ImageNet-21k(1400万画像、21kクラス)で事前学習し、ImageNet-1k(100万画像、1kクラス)でファインチューニング
高解像度対応
224x224と384x384の解像度入力をサポートし、より高い解像度でより良い結果が得られます

モデル能力

画像分類
視覚特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
画像を1000のImageNetクラスに分類
ImageNet検証セットで優れた精度を達成
視覚特徴抽出
下流タスク用に画像特徴を抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase