vit_base-224-in21k-ft-cifar10開源圖像分類模型 - 精準識別西班牙語圖像，準確率97%

首頁

Vit Base 224 In21k Ft Cifar10

由edumunozsala開發

基於Vision Transformer架構的西班牙語圖像分類模型，在CIFAR-10數據集上微調，準確率達97%。

圖像分類

Transformers

西班牙語開源協議:Apache-2.0 #高精度圖像分類 #ViT微調模型 #CIFAR10專用

下載量 16

發布時間 : 6/11/2022

模型概述

該模型使用亞馬遜SageMaker和Hugging Face深度學習容器進行訓練，基礎模型是Vision Transformer（基礎尺寸模型），在ImageNet-21k數據集上預訓練，並在CIFAR-10數據集上微調，用於圖像分類任務。

模型特點

高準確率

在CIFAR-10數據集上達到97%的準確率。

基於Vision Transformer

使用Transformer編碼器架構，適用於圖像分類任務。

微調模型

在ImageNet-21k上預訓練，並在CIFAR-10數據集上微調。

模型能力

圖像分類

高精度識別

使用案例

圖像識別

CIFAR-10圖像分類

用於對CIFAR-10數據集中的圖像進行分類。

準確率97%

🚀 視覺變換器模型（vit_base-224-in21k-ft-cifar10）

本模型是一個經過微調的圖像分類模型，基於亞馬遜SageMaker和Hugging Face深度學習容器進行訓練，能夠高效準確地完成圖像分類任務。

🚀 快速開始

本模型使用亞馬遜SageMaker和Hugging Face深度學習容器進行訓練。基礎模型是視覺變換器（基礎大小模型），它是一個基於Transformer編碼器的模型（類似BERT），以監督方式在大量圖像集合（即分辨率為224x224像素的ImageNet - 21k）上進行預訓練。基礎模型鏈接

✨ 主要特性

微調優化：針對圖像分類任務進行了微調，在特定數據集上表現出色。
強大基礎：基於在大規模圖像數據上預訓練的視覺變換器模型。

📚 詳細文檔

基礎模型引用

BibTeX條目和引用信息

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

數據集

數據集描述鏈接

CIFAR - 10和CIFAR - 100是8000萬張微小圖像數據集的帶標籤子集，由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。

CIFAR - 10數據集由10個類別共60000張32x32彩色圖像組成，每個類別有6000張圖像。其中50000張為訓練圖像，10000張為測試圖像。

數據集分為五個訓練批次和一個測試批次，每個批次有10000張圖像。測試批次包含每個類別中隨機選擇的1000張圖像。訓練批次按隨機順序包含其餘圖像，但某些訓練批次可能包含來自某個類別的圖像比其他類別更多。總體而言，訓練批次中每個類別恰好包含5000張圖像。

數據集大小：

訓練數據集：50000
測試數據集：10000

預期用途和限制

本模型旨在用於圖像分類任務。

超參數

{
    "epochs": "5",
    "train_batch_size": "32",    
    "eval_batch_size": "8",
    "fp16": "true",
    "learning_rate": "1e-05"
}

測試結果

準確率 = 0.97

💻 使用示例

基礎用法

from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state