trocr-base-printed合成データセットOCRモデル - オープンソースで無料、印刷テキストを高精度で識別

ホーム

Trocr Base Printed Synthetic Dataset Ocr

DunnBC22によって開発

microsoft/trocr-base-printedをファインチューニングした印刷テキスト認識モデル、合成OCRデータセットに最適化

文字認識

Transformers

英語#印刷体OCR #高精度文字認識 #合成データトレーニング

ダウンロード数 65

リリース時間 : 3/27/2023

モデル概要

このモデルは印刷テキストラベルの読み取りに使用され、合成OCRデータセットで優れた性能を発揮します

モデル特徴

高精度OCR

合成データセットで0.003の文字誤り率（CER）を達成

印刷テキスト最適化

印刷テキストラベル認識に特化して最適化

Transformerアーキテクチャ採用

先進のTrOCRアーキテクチャを採用し、視覚と言語理解能力を統合

モデル能力

印刷テキスト認識

画像からテキスト変換

ラベル情報抽出

使用事例

文書デジタル化

ラベル情報抽出

製品ラベル、包装などの印刷テキストから情報を抽出

印刷テキスト内容を高精度で認識

自動化処理

自動データ入力

印刷文書を自動的に編集可能なテキストに変換

手動入力エラーを削減

🚀 trocr-base-printed-synthetic_dataset_ocr

このモデルは、不明なデータセットで microsoft/trocr-base-printed をファインチューニングしたバージョンです。このモデルは、印刷されたテキストを読み取るために使用でき、特定のデータセットを用いて訓練されています。

✨ 主な機能

このモデルは、印刷されたテキストのラベルを読み取るために使用できます。

📚 ドキュメント

モデルの説明

このモデルのコードへのリンクはこちらです: https://github.com/DunnBC22/Vision_Audio_and_Multimodal_Projects/tree/main/Optical%20Character%20Recognition%20(OCR)/20%2C000%20Synthetic%20Samples%20Dataset

想定される用途と制限

このモデルは、印刷されたテキストのラベルを読み取るために使用できます。

訓練と評価データ

このモデルに使用したデータセットへのリンクはこちらです: https://www.kaggle.com/datasets/ravi02516/20k-synthetic-ocr-dataset

訓練データセットの文字長:

Input Character Length for Training Dataset

評価データセットの文字長:

Input Character Length for Evaluation Dataset

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました:

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 1
mixed_precision_training: Native AMP

訓練結果

CER = 0.003 (実際は 0.002896524170994806)

フレームワークのバージョン

Transformers 4.26.1
Pytorch 1.13.1+cu116
Datasets 2.10.1
Tokenizers 0.13.2

モデルチェックポイント

@misc{li2021trocr, title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei}, year={2021}, eprint={2109.10282}, archivePrefix={arXiv}, primaryClass={cs.CL}}

評価指標 (文字誤り率 [CER])

@inproceedings{morris2004, author = {Morris, Andrew and Maier, Viktoria and Green, Phil}, year = {2004}, month = {01}, pages = {}, title = {From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition.} }

情報テーブル

属性	詳情
モデルタイプ	このモデルは、microsoft/trocr-base-printed をファインチューニングしたものです。
訓練データ	不明なデータセット。データセットへのリンク: https://www.kaggle.com/datasets/ravi02516/20k-synthetic-ocr-dataset