🚀 高棉語TrOCR光學字符識別系統 📝🇰🇭
本項目是基於microsoft/trocr-base-stage1微調後的版本,專門用於識別高棉語人名。它通過使用高棉語個人姓名的合成圖像 - 文本對進行訓練。
🚀 快速開始
安裝所需的軟件包
pip install transformers torch pillow
Python推理示例
import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("🔤 預測結果:", predicted_text)
✨ 主要特性
- 特定領域優化:針對高棉語人名識別進行了微調,能更精準地識別高棉語人名。
- 架構先進:採用了VisionEncoderDecoderModel(ViT + RoBERTa)架構,結合了視覺編碼和解碼能力。
- 支持高棉語:專門為高棉語腳本的光學字符識別任務設計。
📦 安裝指南
使用以下命令安裝所需的依賴包:
pip install transformers torch pillow
💻 使用示例
基礎用法
import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("🔤 預測結果:", predicted_text)
📚 詳細文檔
📌 模型詳情
屬性 |
詳情 |
架構 |
VisionEncoderDecoderModel(ViT + RoBERTa) |
基礎模型 |
microsoft/trocr-base-stage1 |
語言 |
高棉語 (km ) |
任務 |
光學字符識別(OCR) — 專門針對高棉語腳本 |
🧠 訓練情況
該模型在一個合成的高棉語人名數據集上進行了微調,使用了高棉語Unicode字體(KhmerOS_muol.ttf
)渲染人名。每個圖像都與相應的文本標籤配對,用於有監督訓練。
- 輸入:高棉語人名的RGB圖像(
512x64
)
- 輸出:Unicode高棉語文本
- 數據集:自定義生成的高棉語人名數據集(10,000 + 樣本)
- 預處理:使用PIL從文本渲染圖像,並與真實標籤配對
📊 評估
即將推出 — 使用CER/WER指標在帶標籤的測試集上進行評估。
✅ 應用場景
📄 許可證
本模型採用Apache - 2.0許可證,可免費用於研究和商業應用。
🤝 致謝