🚀 モデル vit_base-224-in21k-ft-cifar100
このモデルは、画像分類のためにファインチューニングされたモデルです。Amazon SageMakerとHugging Faceのディープラーニングコンテナを使用してトレーニングされました。
🚀 クイックスタート
このモデルは、Amazon SageMakerとHugging Faceのディープラーニングコンテナを使用してトレーニングされました。ベースモデルはVision Transformer (base-sized model) で、224x224ピクセルの解像度でImageNet-21kという大規模な画像コレクションで教師あり学習によって事前学習されたトランスフォーマーエンコーダモデル(BERTのような)です。ベースモデルへのリンク
✨ 主な機能
- 画像分類に特化したファインチューニング済みモデルです。
- Amazon SageMakerとHugging Faceのディープラーニングコンテナを利用してトレーニングされています。
📚 ドキュメント
ベースモデルの引用
BibTeXエントリと引用情報
@misc{wu2020visual,
title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision},
author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
year={2020},
eprint={2006.03677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
データセット
データセットの説明へのリンク
CIFAR-10とCIFAR-100は、8000万枚の微小画像データセットのラベル付きサブセットです。これらはAlex Krizhevsky、Vinod Nair、Geoffrey Hintonによって収集されました。
CIFAR-10データセットは、10クラスの60000枚の32x32カラー画像で構成され、クラスごとに6000枚の画像があります。トレーニング画像は50000枚、テスト画像は10000枚です。このデータセットCIFAR100は、CIFAR-10と似ていますが、各クラスに600枚の画像を含む100クラスがあります。クラスごとに500枚のトレーニング画像と100枚のテスト画像があります。CIFAR-100の100クラスは20のスーパークラスにグループ化されています。各画像には、所属するクラスを示す「細分ラベル」と所属するスーパークラスを示す「大分類ラベル」が付けられています。
データセットのサイズ:
- トレーニングデータセット: 50,000
- テストデータセット: 10,000
想定される用途と制限
このモデルは画像分類を目的としています。
ハイパーパラメータ
{
"epochs": "5",
"train_batch_size": "32",
"eval_batch_size": "8",
"fp16": "true",
"learning_rate": "1e-05"
}
テスト結果
💻 使用例
基本的な使用法
from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar100')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
作成者
Eduardo Muñoz/@edumunozsala
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。