ko-trocrオープンソースOCRモデル - 韓語の初声識別を高精度にサポートし、従来の識別の不備を解消

ホーム

Ko Trocr

ddobokkiによって開発

韓国語初声認識をサポートするOCRモデルで、改良されたトークナイザーを使用して従来のTrOCRの韓国語初声認識不足の問題を解決

文字認識

Transformers

韓国語オープンソースライセンス:Apache-2.0 #韓国語OCR #初声認識の最適化 #行政文書処理

ダウンロード数 2,035

リリース時間 : 3/9/2023

モデル概要

TrOCRアーキテクチャを基に最適化された韓国語光学文字認識モデルで、韓国語初声認識問題に特化しており、韓国語文書のデジタル処理に適しています

モデル特徴

韓国語初声サポート

特殊なトークナイザーデコーダーを使用し、韓国語初声がUNK未知文字として表示されないように保証

専門コンペティション検証

技術ソリューションは2023年教元グループAI OCRチャレンジで検証済み

高品質トレーニングデータ

AI Hubプラットフォームの専門韓国語OCRデータセットを使用してトレーニング

モデル能力

韓国語テキスト認識

印刷文字抽出

文書デジタル処理

使用事例

文書処理

公共行政文書のデジタル化

紙の行政文書を編集可能な電子テキストに変換

複雑な韓国語文字を含む公式文書を正確に認識

印刷資料の転写

書籍、雑誌などの印刷資料から韓国語テキストを抽出

🚀 韓国語TrOCRモデル

TrOCRモデルは、デコーダのトークナイザに存在しない文字をOCRできないため、子音を使用するトークナイザを用いたデコーダモデルを採用し、子音がUNKとして表示されないようにしたTrOCRモデルです。
2023教員グループAI OCRチャレンジで得たノウハウを活用して作成されました。

🚀 クイックスタート

この韓国語TrOCRモデルは、画像からテキストを抽出するために使用できます。以下に使用方法を説明します。

✨ 主な機能

子音を含む韓国語文字を正確にOCRできます。
2023教員グループAI OCRチャレンジのノウハウを活用しています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers requests pillow

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
import unicodedata
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

url = "https://raw.githubusercontent.com/ddobokki/ocr_img_example/master/g.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text = unicodedata.normalize("NFC", generated_text)
print(generated_text)