🚀 視覺變換器模型(vit_base-224-in21k-ft-cifar10)
本模型是一個經過微調的圖像分類模型,基於亞馬遜SageMaker和Hugging Face深度學習容器進行訓練,能夠高效準確地完成圖像分類任務。
🚀 快速開始
本模型使用亞馬遜SageMaker和Hugging Face深度學習容器進行訓練。基礎模型是視覺變換器(基礎大小模型),它是一個基於Transformer編碼器的模型(類似BERT),以監督方式在大量圖像集合(即分辨率為224x224像素的ImageNet - 21k)上進行預訓練。基礎模型鏈接
✨ 主要特性
- 微調優化:針對圖像分類任務進行了微調,在特定數據集上表現出色。
- 強大基礎:基於在大規模圖像數據上預訓練的視覺變換器模型。
📚 詳細文檔
基礎模型引用
BibTeX條目和引用信息
@misc{wu2020visual,
title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision},
author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
year={2020},
eprint={2006.03677},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
數據集
數據集描述鏈接
CIFAR - 10和CIFAR - 100是8000萬張微小圖像數據集的帶標籤子集,由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton收集。
CIFAR - 10數據集由10個類別共60000張32x32彩色圖像組成,每個類別有6000張圖像。其中50000張為訓練圖像,10000張為測試圖像。
數據集分為五個訓練批次和一個測試批次,每個批次有10000張圖像。測試批次包含每個類別中隨機選擇的1000張圖像。訓練批次按隨機順序包含其餘圖像,但某些訓練批次可能包含來自某個類別的圖像比其他類別更多。總體而言,訓練批次中每個類別恰好包含5000張圖像。
數據集大小:
預期用途和限制
本模型旨在用於圖像分類任務。
超參數
{
"epochs": "5",
"train_batch_size": "32",
"eval_batch_size": "8",
"fp16": "true",
"learning_rate": "1e-05"
}
測試結果
💻 使用示例
基礎用法
from transformers import ViTFeatureExtractor, ViTModel
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224-in21k')
model = ViTModel.from_pretrained('edumunozsala/vit_base-224-in21k-ft-cifar10')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state
本模型由Eduardo Muñoz/@edumunozsala創建。
📄 許可證
本模型採用Apache - 2.0許可證。