vit_base-224-in21k-ft-cifar10オープンソース画像分類モデル - スペイン語画像を高精度に識別、正確率97%

ホーム

Vit Base 224 In21k Ft Cifar10

edumunozsalaによって開発

Vision Transformerアーキテクチャに基づくスペイン語画像分類モデルで、CIFAR-10データセットでファインチューニングされ、97%の精度を達成。

画像分類

Transformers

スペイン語オープンソースライセンス:Apache-2.0 #高精度画像分類 #ViTファインチューニングモデル #CIFAR10専用

ダウンロード数 16

リリース時間 : 6/11/2022

モデル概要

このモデルはAmazon SageMakerとHugging Faceの深層学習コンテナを使用してトレーニングされ、ベースモデルはVision Transformer（基本サイズモデル）で、ImageNet-21kデータセットで事前トレーニングされ、CIFAR-10データセットでファインチューニングされ、画像分類タスクに使用されます。

モデル特徴

高精度

CIFAR-10データセットで97%の精度を達成。

Vision Transformerベース

Transformerエンコーダアーキテクチャを使用し、画像分類タスクに適しています。

ファインチューニングモデル

ImageNet-21kで事前トレーニングされ、CIFAR-10データセットでファインチューニングされています。

モデル能力

画像分類

高精度認識

使用事例

画像認識

CIFAR-10画像分類

CIFAR-10データセット内の画像を分類するために使用されます。

精度97%

🚀 モデルvit_base-224-in21k-ft-cifar10

このモデルは画像分類のために微調整されたモデルです。Amazon SageMakerとHugging Faceのディープラーニングコンテナを使用してトレーニングされました。

✨ 主な機能

このモデルは画像分類に特化しています。
ベースモデルはVision Transformer (base-sized model) で、224x224ピクセルの解像度の大量の画像コレクション（ImageNet - 21k）で教師あり学習によって事前学習されたトランスフォーマエンコーダモデル（BERTのような）です。ベースモデルへのリンク

📚 ドキュメント

ベースモデルの引用

BibTeXエントリと引用情報

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

データセット

データセットの説明へのリンク

CIFAR - 10とCIFAR - 100は、8000万枚の微小画像データセットのラベル付きサブセットです。これらはAlex Krizhevsky、Vinod Nair、およびGeoffrey Hintonによって収集されました。

CIFAR - 10データセットは、10クラスの60000枚の32x32カラー画像で構成され、クラスごとに6000枚の画像があります。トレーニング画像は50000枚、テスト画像は10000枚です。

データセットは5つのトレーニングバッチと1つのテストバッチに分割され、それぞれ10000枚の画像が含まれています。テストバッチには、各クラスからランダムに選択された1000枚の画像が正確に含まれています。トレーニングバッチには残りの画像がランダムな順序で含まれていますが、一部のトレーニングバッチにはあるクラスの画像が他のクラスよりも多く含まれる場合があります。合計で、トレーニングバッチには各クラスから正確に5000枚の画像が含まれています。

データセットのサイズ:

トレーニングデータセット: 50,000
テストデータセット: 10,000

意図された用途と制限

このモデルは画像分類を目的としています。

ハイパーパラメータ

{
    "epochs": "5",
    "train_batch_size": "32",    
    "eval_batch_size": "8",
    "fp16": "true",
    "learning_rate": "1e-05"
}

テスト結果

精度 = 0.97

💻 使用例

基本的な使用法

from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state