Vit Model

V

Vit Model

mm-aiによって開発

前処理1024構成データセットでファインチューニングされたViTモデル、画像分類タスク用

#画像分類 #ViTアーキテクチャ #中程度の精度

ダウンロード数 19

リリース時間 : 2/20/2023

モデル概要

このモデルはVision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、前処理1024構成データセットでファインチューニングされており、主に画像分類タスクに使用されます。

モデル特徴

ViTアーキテクチャベース

Vision Transformerアーキテクチャを採用し、画像処理タスクに適しています

ファインチューニング最適化

前処理1024構成データセットで特別にファインチューニングされています

中程度の精度

評価データセットで60.11%の精度と59.56%のF1スコアを達成

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

汎用画像分類

入力画像を分類識別します

精度60.11%、F1スコア59.56%

🚀 vit-model

このモデルは、preprocessed1024_configデータセット上でをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.1353
正解率: {'accuracy': 0.6011306532663316}
F1値: {'f1': 0.5956396413406886}

🚀 クイックスタート

このモデルは、画像分類タスクに適用できます。preprocessed1024_configデータセットを使用して訓練されています。

📚 ドキュメント

モデル情報

プロパティ	詳細
モデルタイプ	vit-model
訓練データ	preprocessed1024_config

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率: 5e-05
訓練バッチサイズ: 8
評価バッチサイズ: 8
シード: 42
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: linear
エポック数: 10

訓練結果

訓練損失	エポック	ステップ	検証損失	正解率	F1値
1.224	1.0	796	0.9884	{'accuracy': 0.5276381909547738}	{'f1': 0.40344173017767304}
0.96	2.0	1592	0.9255	{'accuracy': 0.5621859296482412}	{'f1': 0.5134011716404221}
0.8878	3.0	2388	0.9308	{'accuracy': 0.574748743718593}	{'f1': 0.46867195041352344}
0.809	4.0	3184	0.8904	{'accuracy': 0.6067839195979899}	{'f1': 0.5799288651427482}
0.7541	5.0	3980	0.8936	{'accuracy': 0.5954773869346733}	{'f1': 0.5938876317530138}
0.6904	6.0	4776	0.8760	{'accuracy': 0.6118090452261307}	{'f1': 0.6023012293668115}
0.6195	7.0	5572	1.0032	{'accuracy': 0.5917085427135679}	{'f1': 0.5834559014249068}
0.5766	8.0	6368	1.0268	{'accuracy': 0.6023869346733668}	{'f1': 0.5779800559497847}
0.4963	9.0	7164	1.0460	{'accuracy': 0.5992462311557789}	{'f1': 0.5875334711293277}
0.4323	10.0	7960	1.1353	{'accuracy': 0.6011306532663316}	{'f1': 0.5956396413406886}

フレームワークバージョン

Transformers 4.20.1
Pytorch 1.12.0
Datasets 2.1.0
Tokenizers 0.12.1

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase