V

Vit Base 224 In21k Ft Cifar10

edumunozsalaによって開発
Vision Transformerアーキテクチャに基づくスペイン語画像分類モデルで、CIFAR-10データセットでファインチューニングされ、97%の精度を達成。
ダウンロード数 16
リリース時間 : 6/11/2022

モデル概要

このモデルはAmazon SageMakerとHugging Faceの深層学習コンテナを使用してトレーニングされ、ベースモデルはVision Transformer(基本サイズモデル)で、ImageNet-21kデータセットで事前トレーニングされ、CIFAR-10データセットでファインチューニングされ、画像分類タスクに使用されます。

モデル特徴

高精度
CIFAR-10データセットで97%の精度を達成。
Vision Transformerベース
Transformerエンコーダアーキテクチャを使用し、画像分類タスクに適しています。
ファインチューニングモデル
ImageNet-21kで事前トレーニングされ、CIFAR-10データセットでファインチューニングされています。

モデル能力

画像分類
高精度認識

使用事例

画像認識
CIFAR-10画像分類
CIFAR-10データセット内の画像を分類するために使用されます。
精度97%
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase