Finetuned ViT Indian Food Classification V3

F

Finetuned ViT Indian Food Classification V3

DrishtiSharmaによって開発

このモデルは、google/vit-base-patch16-224-in21kをHuman_Action_Recognitionデータセットでファインチューニングした画像分類モデルで、精度は93.84%を達成しています。

オープンソースライセンス:Apache-2.0 #高精度画像分類 #ViTファインチューニングモデル #動作認識

ダウンロード数 60

リリース時間 : 9/3/2022

モデル概要

これはVision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、インド料理のカテゴリ識別に特化しています。Human_Action_Recognitionデータセットでファインチューニングされ、優れた性能を発揮します。

モデル特徴

高精度

評価データセットで93.84%の精度を達成し、優れた性能を示します

ViTアーキテクチャ採用

先進的なVision Transformerアーキテクチャを採用し、画像のグローバルな特徴を効果的に捉えます

効率的なファインチューニング

事前学習済みモデルを基に効率的にファインチューニングされ、トレーニングリソースを節約します

モデル能力

画像分類

食品認識

視覚的特徴抽出

使用事例

飲食業界

自動料理認識

レストランやフードデリバリープラットフォーム向けの自動料理分類システム

インドの様々な料理を正確に識別可能

健康アプリケーション

食事記録補助

ユーザーの食事内容を自動記録するモバイルアプリケーション

食品タイプを自動識別し、記録プロセスを簡素化

🚀 finetuned-ViT-Indian-Food-Classification-v3

このモデルは、google/vit-base-patch16-224-in21k を Human_Action_Recognition データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2878
正解率: 0.9384

📚 ドキュメント

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

learning_rate: 0.0002
train_batch_size: 16
eval_batch_size: 8
seed: 42
optimizer: Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type: linear
num_epochs: 10
mixed_precision_training: Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	正解率
1.1913	0.3	100	0.9307	0.8395
0.6846	0.6	200	0.5650	0.8852
0.5783	0.9	300	0.5147	0.8895
0.5635	1.2	400	0.5310	0.8650
0.4487	1.5	500	0.4155	0.8980
0.2803	1.8	600	0.3848	0.9012
0.4496	2.1	700	0.4308	0.8852
0.4071	2.4	800	0.4004	0.8905
0.3747	2.7	900	0.3795	0.8927
0.2665	3.0	1000	0.3618	0.8927
0.3696	3.3	1100	0.3588	0.8990
0.2808	3.6	1200	0.3794	0.8884
0.158	3.9	1300	0.3416	0.9054
0.2062	4.2	1400	0.3686	0.8916
0.2039	4.5	1500	0.3219	0.9118
0.2392	4.8	1600	0.3392	0.9086
0.1276	5.11	1700	0.3249	0.9192
0.1812	5.41	1800	0.2970	0.9245
0.1352	5.71	1900	0.3366	0.9118
0.1333	6.01	2000	0.3111	0.9203
0.189	6.31	2100	0.3604	0.9139
0.1048	6.61	2200	0.3496	0.9171
0.0913	6.91	2300	0.3046	0.9224
0.1678	7.21	2400	0.3154	0.9288
0.0705	7.51	2500	0.3229	0.9235
0.1057	7.81	2600	0.2895	0.9330
0.1219	8.11	2700	0.2984	0.9299
0.0521	8.41	2800	0.3083	0.9288
0.1181	8.71	2900	0.3020	0.9288
0.1339	9.01	3000	0.2885	0.9373
0.2393	9.31	3100	0.2895	0.9277
0.1044	9.61	3200	0.2912	0.9362
0.096	9.91	3300	0.2878	0.9384

フレームワークバージョン

Transformers 4.21.2
Pytorch 1.12.1+cu113
Datasets 2.4.0
Tokenizers 0.12.1

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase