Vit Base Letter

V

Vit Base Letter

pittawatによって開発

GoogleのViTベースモデルを文字認識データセットでファインチューニングした画像分類モデルで、精度は98.81%

英語オープンソースライセンス:Apache-2.0 #文字認識 #高精度 #ViTファインチューニング

ダウンロード数 93

リリース時間 : 3/20/2023

モデル概要

このモデルはGoogleのViTベースアーキテクチャをファインチューニングして得られた文字認識モデルで、画像中の文字分類タスクに特化しています。

モデル特徴

高精度

文字認識タスクで98.81%の精度を達成

ViTアーキテクチャベース

Vision Transformerベースアーキテクチャを使用し、強力な画像特徴抽出能力を有する

軽量ファインチューニング

事前学習済みモデルに対し4エポックのみのファインチューニングで、効率的な学習を実現

モデル能力

画像分類

文字認識

文字識別

使用事例

文書処理

手書き文字認識

スキャン文書や写真中の手書き文字を認識

精度98.81%

教育技術

文字学習アプリ

児童教育アプリで書かれた文字を識別・検証する用途

🚀 vit-base-letter

このモデルは、pittawat/letter_recognitionデータセットでgoogle/vit-base-patch16-224-in21kをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

損失: 0.0515
正解率: 0.9881

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました：

学習率: 0.0002
学習バッチサイズ: 32
評価バッチサイズ: 16
シード: 42
オプティマイザ: ベータ=(0.9,0.999)、イプシロン=1e-08のAdam
学習率スケジューラの種類: 線形
エポック数: 4
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	正解率
0.5539	0.12	100	0.5576	0.9308
0.2688	0.25	200	0.2371	0.9665
0.1568	0.37	300	0.1829	0.9688
0.1684	0.49	400	0.1611	0.9662
0.1584	0.62	500	0.1340	0.9673
0.1569	0.74	600	0.1933	0.9531
0.0992	0.86	700	0.1031	0.9781
0.0573	0.98	800	0.1024	0.9781
0.0359	1.11	900	0.0950	0.9804
0.0961	1.23	1000	0.1200	0.9723
0.0334	1.35	1100	0.0995	0.975
0.0855	1.48	1200	0.0791	0.9815
0.0902	1.6	1300	0.0981	0.9765
0.0583	1.72	1400	0.1192	0.9712
0.0683	1.85	1500	0.0692	0.9846
0.1188	1.97	1600	0.0931	0.9785
0.0366	2.09	1700	0.0919	0.9804
0.0276	2.21	1800	0.0667	0.9846
0.0309	2.34	1900	0.0599	0.9858
0.0183	2.46	2000	0.0892	0.9769
0.0431	2.58	2100	0.0663	0.985
0.0424	2.71	2200	0.0643	0.9862
0.0453	2.83	2300	0.0646	0.9862
0.0528	2.95	2400	0.0550	0.985
0.0045	3.08	2500	0.0579	0.9846
0.007	3.2	2600	0.0517	0.9885
0.0048	3.32	2700	0.0584	0.9865
0.019	3.44	2800	0.0560	0.9873
0.0038	3.57	2900	0.0515	0.9881
0.0219	3.69	3000	0.0527	0.9881
0.0117	3.81	3100	0.0523	0.9888
0.0035	3.94	3200	0.0559	0.9865

フレームワークのバージョン

Transformers 4.26.1
Pytorch 1.13.0
Datasets 2.1.0
Tokenizers 0.13.2

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase