🚀 高棉語TrOCR光学文字認識システム 📝🇰🇭
このプロジェクトは、microsoft/trocr-base-stage1 をファインチューニングしたバージョンで、高棉語の人名を認識するために特化しています。高棉語の個人姓名の合成画像 - テキストペアを使用して訓練されています。
🚀 クイックスタート
必要なパッケージのインストール
pip install transformers torch pillow
Pythonによる推論の例
import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("🔤 予測結果:", predicted_text)
✨ 主な機能
- 特定分野最適化:高棉語の人名認識に特化してファインチューニングされており、高棉語の人名をより正確に認識できます。
- 先進的なアーキテクチャ:VisionEncoderDecoderModel(ViT + RoBERTa)アーキテクチャを採用しており、視覚的なエンコードとデコードの能力を兼ね備えています。
- 高棉語対応:高棉語の文字の光学文字認識タスクに特化して設計されています。
📦 インストール
必要な依存パッケージを以下のコマンドでインストールします。
pip install transformers torch pillow
💻 使用例
基本的な使用法
import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("🔤 予測結果:", predicted_text)
📚 ドキュメント
📌 モデルの詳細
属性 |
詳細 |
アーキテクチャ |
VisionEncoderDecoderModel(ViT + RoBERTa) |
ベースモデル |
microsoft/trocr-base-stage1 |
言語 |
高棉語 (km ) |
タスク |
光学文字認識(OCR) — 高棉語の文字に特化 |
🧠 訓練の詳細
このモデルは、高棉語のUnicodeフォント(KhmerOS_muol.ttf
)を使用して人名をレンダリングした合成高棉語人名データセットでファインチューニングされました。各画像は、教師付き訓練のために対応するテキストラベルとペアになっています。
- 入力:高棉語人名のRGB画像(
512x64
)
- 出力:Unicode高棉語テキスト
- データセット:カスタム生成の高棉語人名データセット(10,000 + サンプル)
- 前処理:PILを使用してテキストから画像をレンダリングし、実際のラベルとペアにする
📊 評価
近日公開予定 — CER/WER指標を使用して、ラベル付きのテストセットで評価します。
✅ 応用シーン
📄 ライセンス
このモデルはApache - 2.0ライセンスを採用しており、研究や商用アプリケーションに無料で使用できます。
🤝 謝辞