🚀 视觉变换器在 Matthijs/snacks
数据集上微调
视觉变换器(ViT)模型在 ImageNet - 21k 上进行预训练,并使用 torchvision
中的各种数据增强变换在 Matthijs/snacks 数据集上进行了 5 个轮次的微调。
该模型在验证集和测试集上分别达到了 94.97% 和 94.43% 的准确率。
📦 数据集和模型信息
属性 |
详情 |
数据集 |
Matthijs/snacks |
模型名称 |
matteopilotto/vit - base - patch16 - 224 - in21k - snacks |
📊 评估指标
任务类型 |
数据集 |
评估指标 |
值 |
是否验证 |
图像分类 |
Matthijs/snacks(测试集) |
准确率(Accuracy) |
0.8928571428571429 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
宏精确率(Precision Macro) |
0.8990033704680036 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
微精确率(Precision Micro) |
0.8928571428571429 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
加权精确率(Precision Weighted) |
0.8972398709051788 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
宏召回率(Recall Macro) |
0.8914608843537415 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
微召回率(Recall Micro) |
0.8928571428571429 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
加权召回率(Recall Weighted) |
0.8928571428571429 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
宏 F1 分数(F1 Macro) |
0.892544821273258 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
微 F1 分数(F1 Micro) |
0.8928571428571429 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
加权 F1 分数(F1 Weighted) |
0.8924168605019522 |
是 |
图像分类 |
Matthijs/snacks(测试集) |
损失(loss) |
0.479541540145874 |
是 |
💻 使用示例
基础用法
from transformers import ViTFeatureExtractor
from torchvision.transforms import (
Compose,
Normalize,
Resize,
RandomResizedCrop,
RandomHorizontalFlip,
RandomAdjustSharpness,
ToTensor
)
checkpoint = 'google/vit-base-patch16-224-in21k'
feature_extractor = ViTFeatureExtractor.from_pretrained(checkpoint)
train_aug_transforms = Compose([
RandomResizedCrop(size=feature_extractor.size),
RandomHorizontalFlip(p=0.5),
RandomAdjustSharpness(sharpness_factor=5, p=0.5),
ToTensor(),
Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])
valid_aug_transforms = Compose([
Resize(size=(feature_extractor.size, feature_extractor.size)),
ToTensor(),
Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])
上述代码块展示了在预处理过程中应用的各种变换,用于增强原始数据集。增强后的图像是通过 set_transform
方法实时生成的。