OCR_corrector開源模型 - 免費部署修正意大利語文本OCR約93%錯誤

首頁

OCR Corrector

由DeepMount00開發

該模型是專為意大利語設計的實驗性序列到序列架構，旨在修正低質量光學字符識別（OCR）系統在意大利文本上產生的約93%的錯誤。

文本生成

Transformers

其他開源協議:Apache-2.0 #意大利語OCR糾錯 #序列到序列架構 #歷史文獻處理

下載量 20

發布時間 : 4/10/2024

模型概述

通過輸入原始的OCR掃描文本，模型將輸出修正後的文本版本，顯著減少錯誤並提升可讀性和準確性。

模型特點

高準確率

能夠修正約93%的OCR錯誤，顯著提升文本質量。

意大利語專用

專門針對意大利語文本訓練，優化了意大利語OCR錯誤的修正能力。

序列到序列架構

採用序列到序列（Seq2Seq）架構，適合處理文本轉換任務。

模型能力

OCR文本糾錯

意大利語文本修正

序列到序列文本轉換

使用案例

歷史文獻數字化

意大利歷史文獻修正

處理掃描質量低、OCR錯誤率高的意大利歷史文獻，提升數字化文本的準確性。

修正約93%的OCR錯誤

檔案管理

檔案文本修正

修正檔案掃描文本中的OCR錯誤，提高檔案的可讀性和可用性。

顯著減少錯誤並提升可讀性

🚀 意大利語OCR糾錯序列到序列模型

本模型是專門為意大利語設計的實驗性序列到序列架構的首個版本。它能夠糾正低質量光學字符識別（OCR）系統產生的約93%的錯誤，這些系統在處理意大利語文本時往往表現不佳。該模型以原始的OCR掃描文本作為輸入，輸出糾正後的文本，顯著減少錯誤，提高可讀性和準確性。

🚀 快速開始

模型詳情

此模型是專門為意大利語設計的實驗性序列到序列架構的首個版本。它旨在糾正低質量光學字符識別（OCR）系統產生的約93%的錯誤，這些系統在處理意大利語文本時表現欠佳。模型以原始的OCR掃描文本為輸入，輸出糾正後的文本，大幅減少錯誤，提升可讀性與準確性。

預期用途

主要用途：該模型用於處理和糾正使用OCR技術數字化的意大利語文本。尤其適用於低質量掃描的文本，這類文本的OCR錯誤率明顯較高。
適用用戶：它是為處理意大利歷史文獻、書籍以及任何存在大量OCR錯誤的數字化材料的開發者、研究人員和檔案管理員設計的。

侷限性

雖然該模型能糾正約93%的OCR錯誤，但在某些特定類型的錯誤或特定上下文中，其性能可能會降低。
該模型是專門針對意大利語文本進行訓練的，對於其他語言的文本或包含大量非意大利語的文本，其表現可能不佳。

如何使用

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = "cuda" if torch.cuda.is_available() else "cpu"
MODEL_NAME = "DeepMount00/OCR_corrector"

model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model.to(device)
my_text = "In un'epca lontnaa, un re goernava le sue tere con saggez2a e giustiia. Sotot il suo regno, il rgeno prosperava e la getne era flice. Ma un gionro, un drgoa feroce attc√≤ il regno, semniando ditruzione e paurra tra i suoi abtanti."
inputs = tokenizer(my_text, return_tensors="pt").to(device)
outputs = model.generate(input_ids=inputs['input_ids'],
               attention_mask=inputs['attention_mask'],
               num_beams=2, max_length=1050, top_k=10)
clean_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(clean_text)