vit-base-patch16-224-in21k-snacks开源模型 - 免费部署精准分类零食图像

首页

Vit Base Patch16 224 In21k Snacks

由 matteopilotto 开发

基于ImageNet-21k预训练的Vision Transformer模型，专门针对零食图像分类任务进行微调

图像分类

Transformers

#零食图像分类 #ViT高精度 #数据增强优化

下载量 37

发布时间 : 5/14/2022

模型简介

该模型是在ImageNet-21k上预训练的Vision Transformer，并在Matthijs/snacks零食数据集上进行了微调，专门用于零食图像分类任务。

模型特点

高精度分类

在零食测试集上达到89.29%的准确率

数据增强

使用了多种数据增强技术，包括随机裁剪、水平翻转和锐度调整

迁移学习

基于ImageNet-21k大规模预训练模型进行微调

模型能力

零食图像分类

食品识别

视觉特征提取

使用案例

零售与餐饮

自动结账系统

用于超市自动识别顾客选购的零食商品

可替代人工扫码，提高结账效率

食品库存管理

自动识别货架上的零食商品

帮助实时监控库存情况

健康与营养

饮食记录应用

通过拍照自动记录用户摄入的零食

帮助用户追踪饮食习惯

🚀 视觉变换器在 `Matthijs/snacks` 数据集上微调

视觉变换器（ViT）模型在 ImageNet - 21k 上进行预训练，并使用 torchvision 中的各种数据增强变换在 Matthijs/snacks 数据集上进行了 5 个轮次的微调。

该模型在验证集和测试集上分别达到了 94.97% 和 94.43% 的准确率。

📦 数据集和模型信息

属性	详情
数据集	Matthijs/snacks
模型名称	matteopilotto/vit - base - patch16 - 224 - in21k - snacks

📊 评估指标

任务类型	数据集	评估指标	值	是否验证
图像分类	Matthijs/snacks（测试集）	准确率（Accuracy）	0.8928571428571429	是
图像分类	Matthijs/snacks（测试集）	宏精确率（Precision Macro）	0.8990033704680036	是
图像分类	Matthijs/snacks（测试集）	微精确率（Precision Micro）	0.8928571428571429	是
图像分类	Matthijs/snacks（测试集）	加权精确率（Precision Weighted）	0.8972398709051788	是
图像分类	Matthijs/snacks（测试集）	宏召回率（Recall Macro）	0.8914608843537415	是
图像分类	Matthijs/snacks（测试集）	微召回率（Recall Micro）	0.8928571428571429	是
图像分类	Matthijs/snacks（测试集）	加权召回率（Recall Weighted）	0.8928571428571429	是
图像分类	Matthijs/snacks（测试集）	宏 F1 分数（F1 Macro）	0.892544821273258	是
图像分类	Matthijs/snacks（测试集）	微 F1 分数（F1 Micro）	0.8928571428571429	是
图像分类	Matthijs/snacks（测试集）	加权 F1 分数（F1 Weighted）	0.8924168605019522	是
图像分类	Matthijs/snacks（测试集）	损失（loss）	0.479541540145874	是

💻 使用示例

基础用法

from transformers import ViTFeatureExtractor
from torchvision.transforms import (
    Compose,
    Normalize,
    Resize,
    RandomResizedCrop,
    RandomHorizontalFlip,
    RandomAdjustSharpness,
    ToTensor
)

checkpoint = 'google/vit-base-patch16-224-in21k'
feature_extractor = ViTFeatureExtractor.from_pretrained(checkpoint)

# transformations on the training set
train_aug_transforms = Compose([
    RandomResizedCrop(size=feature_extractor.size),
    RandomHorizontalFlip(p=0.5),
    RandomAdjustSharpness(sharpness_factor=5, p=0.5),
    ToTensor(),
    Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])

# transformations on the validation/test set
valid_aug_transforms = Compose([
    Resize(size=(feature_extractor.size, feature_extractor.size)),
    ToTensor(),
    Normalize(mean=feature_extractor.image_mean, std=feature_extractor.image_std),
])

上述代码块展示了在预处理过程中应用的各种变换，用于增强原始数据集。增强后的图像是通过 set_transform 方法实时生成的。