ko-trocr開源OCR模型 - 精準支持韓語初聲識別，解決傳統識別不足

首頁

Ko Trocr

由ddobokki開發

支持韓語初聲識別的OCR模型，採用改進分詞器解決傳統TrOCR對韓語初聲識別不足的問題

文字識別

Transformers

韓語開源協議:Apache-2.0 #韓語OCR #初聲識別優化 #行政文檔處理

下載量 2,035

發布時間 : 3/9/2023

模型概述

基於TrOCR架構優化的韓語光學字符識別模型，專門解決韓語初聲識別問題，適用於韓語文檔的數字化處理

模型特點

韓語初聲支持

採用特殊分詞器解碼器，確保韓語初聲不會顯示為UNK未知字符

專業比賽驗證

技術方案經過2023教元集團AI OCR挑戰賽驗證

高質量訓練數據

使用AI Hub平臺的專業韓語OCR數據集進行訓練

模型能力

韓語文本識別

印刷體文字提取

文檔數字化處理

使用案例

文檔處理

公共行政文檔數字化

將紙質行政文檔轉換為可編輯的電子文本

準確識別包含複雜韓文字符的官方文檔

印刷材料轉錄

從書籍、雜誌等印刷材料中提取韓語文本

🚀 韓語Trocr模型

該Trocr模型使用了採用聲母的分詞器的解碼器模型，解決了原Trocr模型因解碼器分詞器中無對應字符而無法進行OCR識別的問題，避免了聲母被識別為UNK的情況。此模型還運用了在2023教師群體AI OCR挑戰賽中積累的經驗。

🚀 快速開始

以下是該模型的使用示例，展示瞭如何使用該模型對圖像進行OCR識別。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
import unicodedata
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

url = "https://raw.githubusercontent.com/ddobokki/ocr_img_example/master/g.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text = unicodedata.normalize("NFC", generated_text)
print(generated_text)

✨ 主要特性

解決了原Trocr模型無法對分詞器中不存在字符進行OCR識別的問題，避免聲母被識別為UNK。
運用了在2023教師群體AI OCR挑戰賽中獲得的經驗。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel, AutoTokenizer
import requests 
import unicodedata
from io import BytesIO
from PIL import Image

processor = TrOCRProcessor.from_pretrained("ddobokki/ko-trocr") 
model = VisionEncoderDecoderModel.from_pretrained("ddobokki/ko-trocr")
tokenizer = AutoTokenizer.from_pretrained("ddobokki/ko-trocr")

url = "https://raw.githubusercontent.com/ddobokki/ocr_img_example/master/g.jpg"
response = requests.get(url)
img = Image.open(BytesIO(response.content))

pixel_values = processor(img, return_tensors="pt").pixel_values 
generated_ids = model.generate(pixel_values, max_length=64)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
generated_text = unicodedata.normalize("NFC", generated_text)
print(generated_text)