V

Vit Base Patch16 224 In21k Wwwwii

Imeneによって開発
Google Vision Transformer (ViT)ベースモデルを微調整した視覚分類モデルで、画像分類タスクに適しています
ダウンロード数 21
リリース時間 : 9/2/2022

モデル概要

このモデルはgoogle/vit-base-patch16-224-in21k事前学習モデルを未知のデータセットで微調整したバージョンで、主に画像分類タスクに使用されます。

モデル特徴

ViTアーキテクチャベース
Vision Transformerアーキテクチャを採用し、16x16画像パッチで入力を処理
転移学習
ImageNet-21k事前学習モデルをベースに微調整されており、優れた特徴抽出能力を有する
効率的な分類
検証セットで62.67%の精度と83.49%のTop-3精度を達成

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
入力画像を分類識別
検証精度62.67%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase