Centraasia ResNet 50
C
Centraasia ResNet 50
由 Eraly-ml 开发
基于ResNet-50架构的预训练模型,专门针对中亚食物图像分类任务进行微调,支持34种中亚食物分类。
下载量 86
发布时间 : 2/2/2025
模型简介
该模型是一个多类别图像分类器,使用中亚食物数据集进行微调,能够准确识别34种不同的中亚特色食物。
模型特点
高精度分类
在测试集上达到87%的整体准确率,部分类别F1值超过0.95
广泛覆盖
支持34种中亚特色食物的识别,包括各种面食、肉类和传统小吃
高效训练
使用两块T4 GPU仅需36分钟即可完成训练
模型能力
中亚食物图像识别
多类别图像分类
食物种类自动标注
使用案例
餐饮行业
智能菜单识别
自动识别顾客拍摄的食物照片并匹配菜单项
准确率87%
营养分析辅助
通过食物识别辅助计算餐食营养成分
文化研究
中亚饮食文化研究
自动分类和统计中亚地区传统食物样本
🚀 用于中亚图像分类的ResNet - 50模型
本模型是一个预训练的ResNet - 50模型,在中亚食品数据集上进行了微调。它可用于多类别的图像分类任务。该数据集被划分为训练集、验证集和测试集。模型使用随机梯度下降(SGD)优化器和交叉熵损失函数(CrossEntropyLoss)进行训练。
属性 | 详情 |
---|---|
模型类型 | 图像分类 |
训练数据 | issai/Central_Asian_Food_Dataset |
基础模型 | microsoft/resnet - 50 |
评估指标 | 准确率、F1值 |
库名称 | transformers |
许可证 | cc - by - nc - 4.0 |
🚀 快速开始
模型描述
这是一个在中亚食品数据集上进行微调的预训练ResNet - 50模型,用于多类别图像分类。数据被划分为训练集、验证集和测试集。模型采用随机梯度下降(SGD)优化器与交叉熵损失函数(CrossEntropyLoss)进行训练。
训练参数
- 轮数(Epochs): 25
- 批次大小(Batch Size): 32
- 学习率(Learning Rate): 0.001
- 优化器(Optimizer): 带有0.9动量的SGD
- 损失函数(Loss Function): 交叉熵损失函数(CrossEntropyLoss)
结果
训练与验证,F1值
阶段 | 训练损失 | 训练准确率 | 验证损失 | 验证准确率 |
---|---|---|---|---|
第1轮 | 2.1171 | 47.00% | 0.8727 | 75.00% |
第2轮 | 1.0462 | 69.00% | 0.6721 | 78.00% |
... | ... | ... | ... | ... |
第25轮 | 0.4286 | 86.00% | 0.4349 | 86.00% |
模型在Kaggle笔记本中的两块T4 GPU上训练了36分7秒
最佳验证准确率: 86.54%
precision recall f1-score support
achichuk 0.91 0.98 0.94 41
airan-katyk 0.84 0.93 0.89 46
asip 0.78 0.57 0.66 37
bauyrsak 0.90 0.90 0.90 62
beshbarmak-w-kazy 0.71 0.84 0.77 44
beshbarmak-wo-kazy 0.86 0.69 0.76 61
chak-chak 0.94 0.94 0.94 93
cheburek 0.92 0.88 0.90 94
doner-lavash 0.77 1.00 0.87 20
doner-nan 0.86 0.82 0.84 22
hvorost 0.98 0.86 0.91 141
irimshik 0.96 0.94 0.95 175
kattama-nan 0.84 0.88 0.86 66
kazy-karta 0.72 0.78 0.75 46
kurt 0.86 0.97 0.91 61
kuyrdak 0.92 0.93 0.92 58
kymyz-kymyran 0.93 0.82 0.87 49
lagman-fried 0.86 0.95 0.90 38
lagman-w-soup 0.90 0.80 0.85 75
lagman-wo-soup 0.58 0.86 0.69 22
manty 0.91 0.95 0.93 63
naryn 0.97 0.99 0.98 84
nauryz-kozhe 0.88 0.96 0.92 52
orama 0.68 0.84 0.75 38
plov 0.95 0.98 0.97 101
samsa 0.91 0.93 0.92 106
shashlyk-chicken 0.68 0.65 0.66 62
shashlyk-chicken-v 0.74 0.76 0.75 33
shashlyk-kuskovoi 0.75 0.75 0.75 71
shashlyk-kuskovoi-v 0.53 0.79 0.64 29
shashlyk-minced-meat 0.74 0.69 0.72 42
sheep-head 0.75 0.94 0.83 16
shelpek 0.77 0.86 0.81 64
shorpa 0.95 0.88 0.91 80
soup-plain 0.96 0.94 0.95 71
sushki 0.83 1.00 0.91 43
suzbe 0.89 0.82 0.86 62
taba-nan 0.92 0.80 0.86 136
talkan-zhent 0.86 0.80 0.83 90
tushpara-fried 0.79 0.74 0.76 46
tushpara-w-soup 0.94 0.94 0.94 67
tushpara-wo-soup 0.92 0.87 0.89 91
accuracy 0.87 2698
macro avg 0.84 0.86 0.85 2698
weighted avg 0.88 0.87 0.87 2698
测试
训练完成后,模型在测试集上进行了测试:
- 测试准确率: 87%
仓库结构
main.py
— 用于训练和测试模型的代码model/
— 以SafeTensors格式保存的模型
💻 使用示例
基础用法
from transformers import AutoModelForImageClassification
from huggingface_hub import hf_hub_download
from safetensors.torch import load_file
repo_id = "Eraly-ml/centraasia-ResNet-50"
filename = "model.safetensors"
# 加载模型
model_path = hf_hub_download(repo_id=repo_id, filename=filename)
model = AutoModelForImageClassification.from_pretrained(repo_id)
model.load_state_dict(load_file(model_path))
联系信息
我的Telegram:@eralyf
Nsfw Image Detection
Apache-2.0
基于ViT架构的NSFW图像分类模型,通过监督学习在ImageNet-21k数据集上预训练,并在80,000张图像上微调,用于区分正常和NSFW内容。
图像分类
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练,适用于多类别图像分类任务
图像分类
Transformers

F
dima806
76.6M
10
Dinov2 Small
Apache-2.0
基于DINOv2方法训练的小尺寸视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基于ImageNet-21k预训练和ImageNet微调的视觉变换器模型,用于图像分类任务
图像分类
V
google
4.8M
775
Vit Base Patch16 224 In21k
Apache-2.0
基于ImageNet-21k数据集预训练的视觉Transformer模型,用于图像分类任务。
图像分类
V
google
2.2M
323
Dinov2 Base
Apache-2.0
基于DINOv2方法训练的视觉Transformer模型,通过自监督学习提取图像特征
图像分类
Transformers

D
facebook
1.9M
126
Gender Classification
一个基于PyTorch和HuggingPics构建的图像分类模型,用于识别图像中的性别
图像分类
Transformers

G
rizvandwiki
1.8M
48
Vit Base Nsfw Detector
Apache-2.0
基于Vision Transformer (ViT)架构的图像分类模型,专门用于检测图像是否包含NSFW(不安全)内容。
图像分类
Transformers

V
AdamCodd
1.2M
47
Vit Hybrid Base Bit 384
Apache-2.0
混合视觉变换器(ViT)模型结合了卷积网络和Transformer架构,用于图像分类任务,在ImageNet上表现出色。
图像分类
Transformers

V
google
992.28k
6
Gender Classification 2
这是一个基于PyTorch框架和HuggingPics工具生成的图像分类模型,专门用于性别分类任务。
图像分类
Transformers

G
rizvandwiki
906.98k
32
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98