vit_base-224-in21k-ft-cifar10开源图像分类模型 - 精准识别西班牙语图像，准确率97%

Home

Vit Base 224 In21k Ft Cifar10

Developed by edumunozsala

基于Vision Transformer架构的西班牙语图像分类模型，在CIFAR-10数据集上微调，准确率达97%。

图像分类

Transformers

SpanishOpen Source License:Apache-2.0 #高精度图像分类 #ViT微调模型 #CIFAR10专用

Downloads 16

Release Time : 6/11/2022

Model Overview

该模型使用亚马逊SageMaker和Hugging Face深度学习容器进行训练，基础模型是Vision Transformer（基础尺寸模型），在ImageNet-21k数据集上预训练，并在CIFAR-10数据集上微调，用于图像分类任务。

Model Features

高准确率

在CIFAR-10数据集上达到97%的准确率。

基于Vision Transformer

使用Transformer编码器架构，适用于图像分类任务。

微调模型

在ImageNet-21k上预训练，并在CIFAR-10数据集上微调。

Model Capabilities

图像分类

高精度识别

Use Cases

图像识别

CIFAR-10图像分类

用于对CIFAR-10数据集中的图像进行分类。

准确率97%

🚀 视觉变换器模型（vit_base-224-in21k-ft-cifar10）

本模型是一个经过微调的图像分类模型，基于亚马逊SageMaker和Hugging Face深度学习容器进行训练，能够高效准确地完成图像分类任务。

🚀 快速开始

本模型使用亚马逊SageMaker和Hugging Face深度学习容器进行训练。基础模型是视觉变换器（基础大小模型），它是一个基于Transformer编码器的模型（类似BERT），以监督方式在大量图像集合（即分辨率为224x224像素的ImageNet - 21k）上进行预训练。基础模型链接

✨ 主要特性

微调优化：针对图像分类任务进行了微调，在特定数据集上表现出色。
强大基础：基于在大规模图像数据上预训练的视觉变换器模型。

📚 详细文档

基础模型引用

BibTeX条目和引用信息

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

数据集

数据集描述链接

CIFAR - 10和CIFAR - 100是8000万张微小图像数据集的带标签子集，由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。

CIFAR - 10数据集由10个类别共60000张32x32彩色图像组成，每个类别有6000张图像。其中50000张为训练图像，10000张为测试图像。

数据集分为五个训练批次和一个测试批次，每个批次有10000张图像。测试批次包含每个类别中随机选择的1000张图像。训练批次按随机顺序包含其余图像，但某些训练批次可能包含来自某个类别的图像比其他类别更多。总体而言，训练批次中每个类别恰好包含5000张图像。

数据集大小：

训练数据集：50000
测试数据集：10000

预期用途和限制

本模型旨在用于图像分类任务。

超参数

{
    "epochs": "5",
    "train_batch_size": "32",    
    "eval_batch_size": "8",
    "fp16": "true",
    "learning_rate": "1e-05"
}

测试结果

准确率 = 0.97

💻 使用示例

基础用法

from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state