🚀 タイ語-TrOCRモデル
タイ語-TrOCRは、TrOCR base handwritten model をファインチューニングしたモデルで、タイ語と英語の光学文字認識(OCR)に特化しています。この多言語モデルは、TrOCRアーキテクチャ(Vision TransformerエンコーダとElectraベースのテキストデコーダを組み合わせたもの)を利用して、両言語の手書きテキスト行画像を効果的に処理します。コンパクトで軽量な設計で、リソースが制限された環境でも効率的に展開でき、文字認識の精度も高いです。
🚀 クイックスタート
モデルの概要
- エンコーダ: TrOCR Base Handwritten
- デコーダ: Electra Small(タイ語コーパスで学習)
学習データセット
- pythainlp/thai-wiki-dataset-v3
- pythainlp/thaigov-corpus
- Salesforce/wikitext
✨ 主な機能
- タイ語と英語の手書きテキスト行画像の高精度な光学文字認識。
- コンパクトで軽量な設計で、リソース制限環境での効率的な展開が可能。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
processor = TrOCRProcessor.from_pretrained('openthaigpt/thai-trocr')
model = VisionEncoderDecoderModel.from_pretrained('openthaigpt/thai-trocr')
url = 'your_image_url_here'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
📚 ドキュメント
モデルの性能比較
このセクションでは、オープンソースのタイ語-TrOCRモデルと、他の一般的なOCRシステム(EasyOCRとTesseract)の性能比較を詳細に説明します。以下の表は、平均文字誤り率(CER)に基づいた、様々なドキュメントタイプにおけるそれぞれの性能を示しています。
ドキュメントタイプ |
タイ語-TrOCR |
EasyOCR |
Tesseract |
手書き |
0.190034 |
0.410738 |
1.032375 |
PDFドキュメント |
0.057597 |
0.085937 |
0.761595 |
PDFドキュメント (EN-TH) |
0.053968 |
0.308075 |
1.061107 |
実際のドキュメント |
0.147440 |
0.293482 |
0.915707 |
シーンテキスト |
0.134182 |
0.390583 |
2.408704 |
調整済み平均 |
0.123600 |
0.298474 |
1.269101 |
免責事項: https://huggingface.co/datasets/openthaigpt/thai-ocr-evaluation のテストデータセットには、104枚の画像しか含まれていないため、これらの結果の汎化性が制限される可能性があります。私たちはテストデータセットの枚数を増やしています。
重要な洞察
- 文字誤り率(CER): この指標は、モデルが誤って予測した文字の割合を評価します。CERが低いほど、性能が良いことを示します。表に示されているように、タイ語-TrOCRはすべてのドキュメントタイプで、EasyOCRとTesseractを安定して上回っており、平均CERが大幅に低いため、比較対象の中で最も正確なモデルです。
- モデルの性能: タイ語-TrOCRモデルは、PDFドキュメント(タイ語のみと英語-タイ語のバイリンガルテキストの両方)で特に効果的で、シーンテキストと手書きコンテンツの読み取りにおいても、競合モデルに比べて大幅な改善が見られます。
- Tesseractの制限: この比較では、Tesseractは一度に単一の言語の入力のみをサポートしています。このベンチマークの目的で、タイ語設定のみでテストされましたが、これが高いCER値に寄与している可能性があります。
- 評価データセットは、openthaigpt/thai-ocr-evaluation から取得されています。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
スポンサー
作者
- Suchut Sapsathien (suchut@outlook.com)
- Jillaphat Jaroenkantasima (autsadang41@gmail.com)