🚀 视觉变换器模型(vit_base-224-in21k-ft-cifar10)
本模型是一个经过微调的图像分类模型,基于亚马逊SageMaker和Hugging Face深度学习容器进行训练,能够高效准确地完成图像分类任务。
🚀 快速开始
本模型使用亚马逊SageMaker和Hugging Face深度学习容器进行训练。基础模型是视觉变换器(基础大小模型),它是一个基于Transformer编码器的模型(类似BERT),以监督方式在大量图像集合(即分辨率为224x224像素的ImageNet - 21k)上进行预训练。基础模型链接
✨ 主要特性
- 微调优化:针对图像分类任务进行了微调,在特定数据集上表现出色。
- 强大基础:基于在大规模图像数据上预训练的视觉变换器模型。
📚 详细文档
基础模型引用
BibTeX条目和引用信息
@misc{wu2020visual,
title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision},
author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
year={2020},
eprint={2006.03677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
数据集
数据集描述链接
CIFAR - 10和CIFAR - 100是8000万张微小图像数据集的带标签子集,由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。
CIFAR - 10数据集由10个类别共60000张32x32彩色图像组成,每个类别有6000张图像。其中50000张为训练图像,10000张为测试图像。
数据集分为五个训练批次和一个测试批次,每个批次有10000张图像。测试批次包含每个类别中随机选择的1000张图像。训练批次按随机顺序包含其余图像,但某些训练批次可能包含来自某个类别的图像比其他类别更多。总体而言,训练批次中每个类别恰好包含5000张图像。
数据集大小:
预期用途和限制
本模型旨在用于图像分类任务。
超参数
{
"epochs": "5",
"train_batch_size": "32",
"eval_batch_size": "8",
"fp16": "true",
"learning_rate": "1e-05"
}
测试结果
💻 使用示例
基础用法
from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
本模型由Eduardo Muñoz/@edumunozsala创建。
📄 许可证
本模型采用Apache - 2.0许可证。