OCR_correctorオープンソースモデル - 無料でデプロイして、イタリア語テキストのOCRの約93％の誤りを修正

ホーム

OCR Corrector

DeepMount00によって開発

このモデルは、イタリア語用に設計された実験的なシーケンス・トゥ・シーケンスアーキテクチャで、低品質の光学文字認識（OCR）システムがイタリア語テキストで生み出す約93％の誤りを訂正することを目的としています。

テキスト生成

Transformers

その他オープンソースライセンス:Apache-2.0 #イタリア語OCR誤り訂正 #シーケンス・トゥ・シーケンスアーキテクチャ #歴史文献処理

ダウンロード数 20

リリース時間 : 4/10/2024

モデル概要

元のOCRスキャンテキストを入力することで、モデルは訂正されたテキストバージョンを出力し、誤りを大幅に減らし、読みやすさと正確性を向上させます。

モデル特徴

高い正確性

約93％のOCR誤りを訂正し、テキスト品質を大幅に向上させます。

イタリア語専用

イタリア語テキストに特化して訓練され、イタリア語OCR誤りの訂正能力を最適化しています。

シーケンス・トゥ・シーケンスアーキテクチャ

シーケンス・トゥ・シーケンス（Seq2Seq）アーキテクチャを採用しており、テキスト変換タスクの処理に適しています。

モデル能力

OCRテキスト誤り訂正

イタリア語テキスト訂正

シーケンス・トゥ・シーケンステキスト変換

使用事例

歴史文献のデジタル化

イタリアの歴史文献の訂正

スキャン品質が低く、OCR誤り率が高いイタリアの歴史文献を処理し、デジタルテキストの正確性を向上させます。

約93％のOCR誤りを訂正

アーカイブ管理

アーカイブテキストの訂正

アーカイブスキャンテキストのOCR誤りを訂正し、アーカイブの読みやすさと可用性を向上させます。

誤りを大幅に減らし、読みやすさを向上させる

🚀 イタリア語OCR誤り訂正Seq2Seqモデル

このモデルは、イタリア語用に特別に設計された実験的なSeq2Seqアーキテクチャの初版です。低品質のOCRシステムがイタリア語テキストで発生させる誤りの約93%を訂正することを目的としています。

🚀 クイックスタート

このモデルは、OCR技術を使用してデジタル化されたイタリア語テキストの処理と訂正に使用することを意図しています。特に、OCRの誤り率が著しく高い低品質でスキャンされたテキストに役立ちます。

✨ 主な機能

低品質のOCRシステムが生成する誤りの約93%を訂正します。
生のOCRスキャンテキストを入力として、訂正されたテキストを出力し、誤りを大幅に減らし、読みやすさと精度を向上させます。

📦 インストール

本READMEにはインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = "cuda" if torch.cuda.is_available() else "cpu"
MODEL_NAME = "DeepMount00/OCR_corrector"

model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model.to(device)
my_text = "In un'epca lontnaa, un re goernava le sue tere con saggez2a e giustiia. Sotot il suo regno, il rgeno prosperava e la getne era flice. Ma un gionro, un drgoa feroce attc√≤ il regno, semniando ditruzione e paurra tra i suoi abtanti."
inputs = tokenizer(my_text, return_tensors="pt").to(device)
outputs = model.generate(input_ids=inputs['input_ids'],
               attention_mask=inputs['attention_mask'],
               num_beams=2, max_length=1050, top_k=10)
clean_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(clean_text)

📚 ドキュメント

想定される用途

主な用途：このモデルは、OCR技術を使用してデジタル化されたイタリア語テキストの処理と訂正に使用することを意図しています。特に、OCRの誤り率が著しく高い低品質でスキャンされたテキストに役立ちます。
ユーザー：イタリア語の歴史文書、書籍、およびOCR誤りが多いデジタル化された資料を扱う開発者、研究者、アーカイブ担当者を対象としています。