khmer - trocr - ocr - v1.0オープンソースモデル - 高棉語の人名とスクリプトを無料でデプロイして正確に識別する

ホーム

Khmer Trocr Ocr V1.0

songhiengによって開発

Microsoft TrOCRを微調整したクメール語人名識別モデルで、クメール語スクリプトの光学文字認識タスクに特化しています。

文字認識

Transformers

その他オープンソースライセンス:Apache-2.0 #クメール語OCR #人名識別 #身分証識別

ダウンロード数 229

リリース時間 : 5/27/2025

モデル概要

このモデルはクメール語人名識別に最適化された光学文字認識システムで、VisionEncoderDecoderアーキテクチャを採用し、視覚符号化と復号化能力を結合しています。

モデル特徴

特定分野最適化

クメール語人名識別に対して微調整されており、クメール語人名をより正確に識別できます。

先進的なアーキテクチャ

VisionEncoderDecoderModel（ViT + RoBERTa）アーキテクチャを採用し、視覚符号化と復号化能力を結合しています。

言語サポート

クメール語スクリプトの光学文字認識タスク用に特別に設計されています。

モデル能力

クメール語テキスト認識

画像からテキストへの変換

人名識別

使用事例

身分識別

クメール語身分証識別

クメール語身分証上の人名情報を識別します。

🚀 高棉語TrOCR光学文字認識システム 📝🇰🇭

このプロジェクトは、microsoft/trocr-base-stage1 をファインチューニングしたバージョンで、高棉語の人名を認識するために特化しています。高棉語の個人姓名の合成画像 - テキストペアを使用して訓練されています。

🚀 クイックスタート

必要なパッケージのインストール

pip install transformers torch pillow

Pythonによる推論の例

import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# モデルとプロセッサをロード
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")

# 画像をロードして処理
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values

# GPUが利用可能な場合はGPUに移動
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)

# 予測結果を生成
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print("🔤 予測結果:", predicted_text)

✨ 主な機能

特定分野最適化：高棉語の人名認識に特化してファインチューニングされており、高棉語の人名をより正確に認識できます。
先進的なアーキテクチャ：VisionEncoderDecoderModel（ViT + RoBERTa）アーキテクチャを採用しており、視覚的なエンコードとデコードの能力を兼ね備えています。
高棉語対応：高棉語の文字の光学文字認識タスクに特化して設計されています。

📦 インストール

必要な依存パッケージを以下のコマンドでインストールします。

pip install transformers torch pillow

💻 使用例

基本的な使用法

import torch
from PIL import Image
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# モデルとプロセッサをロード
model = VisionEncoderDecoderModel.from_pretrained("your_username/khmer-trocr-ocr")
processor = TrOCRProcessor.from_pretrained("your_username/khmer-trocr-ocr")

# 画像をロードして処理
image = Image.open("khmer_name_images/khmer_name_00001.png").convert("RGB")
pixel_values = processor(images=image, return_tensors="pt").pixel_values

# GPUが利用可能な場合はGPUに移動
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)
pixel_values = pixel_values.to(device)

# 予測結果を生成
generated_ids = model.generate(pixel_values)
predicted_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print("🔤 予測結果:", predicted_text)

📚 ドキュメント

📌 モデルの詳細

属性	詳細
アーキテクチャ	VisionEncoderDecoderModel（ViT + RoBERTa）
ベースモデル	`microsoft/trocr-base-stage1`
言語	高棉語 (`km`)
タスク	光学文字認識（OCR） — 高棉語の文字に特化