Vit Base Patch16 224 In21k Finetuned Cifar10 Album Vitvmmrdb Make Model Album Pred

V

Vit Base Patch16 224 In21k Finetuned Cifar10 Album Vitvmmrdb Make Model Album Pred

venetisによって開発

ViTアーキテクチャに基づくVision Transformerモデルで、CIFAR-10データセットでファインチューニングされ、画像分類タスクに使用されます

オープンソースライセンス:Apache-2.0 #画像分類 #高精度 #ViTアーキテクチャ

ダウンロード数 30

リリース時間 : 11/27/2022

モデル概要

このモデルはGoogle Vision Transformer(ViT)アーキテクチャに基づく画像分類モデルで、CIFAR-10データセットでファインチューニングされており、10種類の一般的な物体を正確に分類できます。

モデル特徴

高精度

CIFAR-10テストセットで85.72%の精度を達成

Transformerアーキテクチャベース

Vision Transformer(ViT)アーキテクチャを採用し、自己注意メカニズムを使用して画像を処理

小サイズ画像処理

224x224ピクセルサイズの画像に最適化

モデル能力

画像分類

物体認識

視覚的特徴抽出

使用事例

コンピュータビジョン

CIFAR-10画像分類

CIFAR-10データセットの10種類の物体を分類

精度85.72%

一般的な物体認識

飛行機、車、鳥などの一般的な物体を認識

🚀 vit-base-patch16-224-in21k-finetuned-cifar10_album_vitVMMRdb_make_model_album_pred

このモデルは、aaraki/vit-base-patch16-224-in21k-finetuned-cifar10 をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5462
正解率: 0.8594
適合率: 0.8556
再現率: 0.8594
F1値: 0.8544

📚 ドキュメント

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e-05
学習バッチサイズ: 64
評価バッチサイズ: 64
乱数シード: 42
勾配蓄積ステップ: 4
総学習バッチサイズ: 256
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: linear
学習率スケジューラのウォームアップ率: 0.1
エポック数: 15

学習結果

学習損失	エポック	ステップ	検証損失	正解率	適合率	再現率	F1値
4.6112	1.0	839	4.5615	0.1425	0.0837	0.1425	0.0646
3.1177	2.0	1678	2.9595	0.4240	0.3424	0.4240	0.3283
2.0793	3.0	2517	2.0048	0.5771	0.5081	0.5771	0.5029
1.4566	4.0	3356	1.4554	0.6760	0.6333	0.6760	0.6280
1.1307	5.0	4195	1.1319	0.7350	0.7027	0.7350	0.7013
0.9367	6.0	5034	0.9328	0.7738	0.7546	0.7738	0.7503
0.7783	7.0	5873	0.8024	0.7986	0.7893	0.7986	0.7819
0.6022	8.0	6712	0.7187	0.8174	0.8098	0.8174	0.8055
0.5234	9.0	7551	0.6635	0.8313	0.8220	0.8313	0.8217
0.4298	10.0	8390	0.6182	0.8388	0.8337	0.8388	0.8302
0.3618	11.0	9229	0.5953	0.8455	0.8394	0.8455	0.8382
0.3262	12.0	10068	0.5735	0.8501	0.8443	0.8501	0.8436
0.3116	13.0	10907	0.5612	0.8527	0.8488	0.8527	0.8471
0.2416	14.0	11746	0.5524	0.8558	0.8500	0.8558	0.8496
0.2306	15.0	12585	0.5489	0.8572	0.8525	0.8572	0.8519

フレームワークバージョン

Transformers 4.24.0
Pytorch 1.12.1+cu113
Datasets 2.7.1
Tokenizers 0.13.2

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase