Vit Finetuned Food101_分類| AIbase模型庫

首頁

Vit Finetuned Food101

由ashaduzzaman開發

這是一個在Food-101數據集上微調的視覺Transformer模型，用於食物圖像分類任務。

圖像分類

TensorBoard

開源協議:Apache-2.0 #食物圖像分類 #高精度ViT #餐飲場景

下載量 162

發布時間 : 8/28/2024

模型概述

該模型基於Google的ViT架構，專門針對101種食物類別進行優化，適用於飲食追蹤、餐廳菜單分析等場景。

模型特點

高準確率食物分類

在Food-101測試集上達到89.6%的準確率，能夠準確識別101種不同食物類別。

基於ViT架構

採用視覺Transformer架構，利用自注意力機制捕捉圖像全局特徵。

遷移學習優化

基於預訓練的ViT模型進行微調，有效利用大規模圖像數據學習到的特徵。

模型能力

食物圖像分類

多類別識別

飲食分析

使用案例

飲食健康

自動食物記錄

幫助用戶通過拍照自動記錄飲食內容

準確識別101種常見食物

餐飲行業

菜單分析

自動分析餐廳菜單中的食物分類

🚀 視覺變換器（ViT）微調食品分類模型

本模型基於視覺變換器（ViT）架構，在Food - 101數據集上對基礎模型進行微調，可將圖像精準分類到101種不同的食品類別中，適用於飲食跟蹤、餐廳菜單分析等多種食品相關應用場景。

🚀 快速開始

本模型是在Food - 101數據集上對[google/vit - base - patch16 - 224 - in21k](https://huggingface.co/google/vit - base - patch16 - 224 - in21k)進行微調後的版本。視覺變換器（ViT）架構用於圖像分類任務，尤其擅長識別和分類食品。

模型詳情

屬性	詳情
模型類型	視覺變換器（ViT）
基礎模型	[google/vit - base - patch16 - 224 - in21k](https://huggingface.co/google/vit - base - patch16 - 224 - in21k)
微調數據集	Food - 101
標籤數量	101（對應不同的食品類別）

✨ 主要特性

性能表現

該模型在評估集上取得了以下結果：

損失值：1.6262
準確率：89.6%

預期用途與侷限性

預期用例

圖像分類：該模型旨在將圖像分類到101種食品類別中，適用於飲食跟蹤中的食品識別、餐廳菜單分析或食品相關搜索引擎等應用。

侷限性

數據集偏差：當應用於與Food - 101數據集中顯著不同的食品圖像時，例如非西方美食或在非標準條件下拍攝的圖像，模型的性能可能會下降。
泛化能力：雖然該模型在Food - 101數據集上表現良好，但不能保證其能夠泛化到其他食品相關任務或數據集。
輸入尺寸：該模型期望輸入圖像的尺寸為224x224像素。不同尺寸的圖像應相應調整大小。

訓練和評估數據

該模型在Food - 101數據集上進行了微調，該數據集包含101,000張圖像，涵蓋101種不同的食品類別。每個類別包含1,000張圖像，其中750張用於訓練，250張用於測試。該數據集包含各種食品，但可能偏向某些菜系或食品類型。

訓練過程

訓練超參數

該模型使用以下超參數進行微調：

學習率：5e - 05
訓練批次大小：16
評估批次大小：16
隨機種子：42
梯度累積步數：4
總訓練批次大小：64
優化器：Adam，β=(0.9, 0.999)，ε = 1e - 08
學習率調度器：線性，熱身比例為0.1
訓練輪數：3

訓練結果

訓練損失	輪數	步數	驗證損失	準確率
2.7649	0.992	62	2.5733	0.831
1.888	2.0	125	1.7770	0.883
1.6461	2.976	186	1.6262	0.896

框架版本

Transformers：4.42.4
PyTorch：2.4.0+cu121
Datasets：2.21.0
Tokenizers：0.19.1

💻 使用示例

基礎用法

要使用此模型進行推理，您可以從Food - 101數據集中加載圖像並進行分類，示例代碼如下：

from datasets import load_dataset
from transformers import pipeline
from PIL import Image
import requests
from io import BytesIO

# 從互聯網加載示例圖像
image_url = "https://example.com/path-to-your-image.jpg"  # 替換為您的圖像URL
response = requests.get(image_url)
image = Image.open(BytesIO(response.content))

# 加載微調後的圖像分類模型
classifier = pipeline(
    "image-classification",
    model="ashaduzzaman/vit-finetuned-food101"
)

# 進行推理
result = classifier(image)
print(result)

🔧 技術細節

倫理考量

偏差：Food - 101數據集主要由流行的西方菜餚組成，這可能會在模型對非西方食品的預測中引入偏差。
隱私：在應用中使用此模型時，請確保圖像的來源符合倫理道德，並尊重隱私問題。

引用

如果您在工作中使用此模型，請按以下方式引用：

@misc{vit_finetuned_food101,
  author = {Ashaduzzaman},
  title = {ViT Fine-tuned on Food-101},
  year = {2024},
  url = {https://huggingface.co/ashaduzzaman/vit-finetuned-food101},
}