thai - trocr - thaigov - v2オープンソースタイ語手書き認識モデル

Thai Trocr Thaigov V2

kkatizによって開発

ビジュアルエンコーダ-デコーダアーキテクチャに基づくタイ語手書き認識モデルで、各種タイ語OCRタスクに適用可能

ダウンロード数 339

リリース時間 : 3/8/2024

モデル概要

このモデルはTrOCRアーキテクチャを採用し、事前学習されたビジュアルエンコーダとタイ語言語デコーダを組み合わせ、専門的にタイ語手書きテキストを認識するために設計されています。25万枚の合成テキスト画像を基に微調整され、政府文書などのタイ語OCRシーンに適用可能です。

混合事前学習アーキテクチャ

エンコーダはmicrosoft/trocr-base-handwritten事前学習モデルを使用し、デコーダはairesearch/wangchanberta-base-att-spm-uncasedモデルを使用します

大規模タイ語データ微調整

タイ政府V2コーパスの25万枚の合成テキスト画像を基に微調整されます

合成データ強化

SynthTIGERを使用して高品質の合成テキスト画像を生成し、モデルの汎化能力を向上させます

タイ語手書き認識

画像からテキストへ

文書OCR処理

政府文書処理

政府公文書認識

タイ語政府公文書の手書き内容を自動認識します

サンプル認識結果：'รมว.ธรรมนัส ลงพื้นที่'

教育分野

学生の手書き宿題の採点

タイ語学生の手書き宿題内容を認識します

属性	详情
モデルタイプ	Vision Encoder Decoder Models
エンコーダ	microsoft/trocr-base-handwritten
デコーダ	airesearch/wangchanberta-base-att-spm-uncased
訓練データ	ThaiGov V2 Corpusを用いた25万枚の合成テキスト画像データセット
合成テキスト画像生成ツール	SynthTIGER
評価指標	CER
サポート言語	タイ語
パイプラインタグ	image-to-text