OCR Corrector
O
OCR Corrector
DeepMount00によって開発
このモデルは、イタリア語用に設計された実験的なシーケンス・トゥ・シーケンスアーキテクチャで、低品質の光学文字認識(OCR)システムがイタリア語テキストで生み出す約93%の誤りを訂正することを目的としています。
ダウンロード数 20
リリース時間 : 4/10/2024
モデル概要
元のOCRスキャンテキストを入力することで、モデルは訂正されたテキストバージョンを出力し、誤りを大幅に減らし、読みやすさと正確性を向上させます。
モデル特徴
高い正確性
約93%のOCR誤りを訂正し、テキスト品質を大幅に向上させます。
イタリア語専用
イタリア語テキストに特化して訓練され、イタリア語OCR誤りの訂正能力を最適化しています。
シーケンス・トゥ・シーケンスアーキテクチャ
シーケンス・トゥ・シーケンス(Seq2Seq)アーキテクチャを採用しており、テキスト変換タスクの処理に適しています。
モデル能力
OCRテキスト誤り訂正
イタリア語テキスト訂正
シーケンス・トゥ・シーケンステキスト変換
使用事例
歴史文献のデジタル化
イタリアの歴史文献の訂正
スキャン品質が低く、OCR誤り率が高いイタリアの歴史文献を処理し、デジタルテキストの正確性を向上させます。
約93%のOCR誤りを訂正
アーカイブ管理
アーカイブテキストの訂正
アーカイブスキャンテキストのOCR誤りを訂正し、アーカイブの読みやすさと可用性を向上させます。
誤りを大幅に減らし、読みやすさを向上させる
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98