🚀 視覺變換器在 Matthijs/snacks
數據集上微調
視覺變換器(ViT)模型在 ImageNet - 21k 上進行預訓練,並使用 torchvision
中的各種數據增強變換在 Matthijs/snacks 數據集上進行了 5 個輪次的微調。
該模型在驗證集和測試集上分別達到了 94.97% 和 94.43% 的準確率。
📦 數據集和模型信息
屬性 |
詳情 |
數據集 |
Matthijs/snacks |
模型名稱 |
matteopilotto/vit - base - patch16 - 224 - in21k - snacks |
📊 評估指標
任務類型 |
數據集 |
評估指標 |
值 |
是否驗證 |
圖像分類 |
Matthijs/snacks(測試集) |
準確率(Accuracy) |
0.8928571428571429 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
宏精確率(Precision Macro) |
0.8990033704680036 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
微精確率(Precision Micro) |
0.8928571428571429 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
加權精確率(Precision Weighted) |
0.8972398709051788 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
宏召回率(Recall Macro) |
0.8914608843537415 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
微召回率(Recall Micro) |
0.8928571428571429 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
加權召回率(Recall Weighted) |
0.8928571428571429 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
宏 F1 分數(F1 Macro) |
0.892544821273258 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
微 F1 分數(F1 Micro) |
0.8928571428571429 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
加權 F1 分數(F1 Weighted) |
0.8924168605019522 |
是 |
圖像分類 |
Matthijs/snacks(測試集) |
損失(loss) |
0.479541540145874 |
是 |
💻 使用示例
基礎用法
from transformers import ViTFeatureExtractor
from torchvision.transforms import (
Compose,
Normalize,
Resize,
RandomResizedCrop,
RandomHorizontalFlip,
RandomAdjustSharpness,
ToTensor
)
checkpoint = 'google/vit-base-patch16-224-in21k'
feature_extractor = ViTFeatureExtractor.from_pretrained(checkpoint)
train_aug_transforms = Compose([
RandomResizedCrop(size=feature_extractor.size),
RandomHorizontalFlip(p=0.5),
RandomAdjustSharpness(sharpness_factor=5, p=0.5),
ToTensor(),
Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])
valid_aug_transforms = Compose([
Resize(size=(feature_extractor.size, feature_extractor.size)),
ToTensor(),
Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])
上述代碼塊展示了在預處理過程中應用的各種變換,用於增強原始數據集。增強後的圖像是通過 set_transform
方法即時生成的。