trocr-large-spanish開源西班牙語OCR模型 - 專為印刷字體優化，高效識別文字

首頁

Trocr Large Spanish

由qantev開發

基於Transformer架構的印刷體西班牙語OCR模型，專為印刷字體優化，不支持手寫體識別

圖像生成文本

Transformers

支持多種語言開源協議:MIT #西班牙語OCR #印刷體識別 #Transformer架構

下載量 298

發布時間 : 2/22/2024

模型概述

TrOCR是一種基於Transformer的光學字符識別模型，通過圖像Transformer編碼器和文本Transformer解碼器實現圖像到文字的轉換。本版本針對西班牙語進行了專門優化。

模型特點

西班牙語優化

專門針對西班牙語文本識別進行訓練和優化

印刷體專用

專為印刷字體設計，識別印刷文本效果優異

Transformer架構

採用先進的Transformer架構，結合圖像理解和語言建模能力

大規模訓練數據

使用自建的200萬西班牙語樣本數據集訓練

模型能力

印刷體文字識別

西班牙語文本提取

圖像轉文字

多詞句識別

使用案例

文檔數字化

維基百科內容提取

從西班牙語維基百科頁面圖像中提取文本內容

商業應用

發票處理

自動識別西班牙語發票中的文本信息

🚀 TrOCR（大型模型）

TrOCR是一個基於Transformer架構的光學字符識別（OCR）模型，本項目推出了TrOCR大型模型的新版本，該版本在自行生成的西班牙語數據集上進行了微調。此模型適用於印刷字體識別，但不支持手寫識別。

🚀 快速開始

以下是如何在PyTorch中使用該模型的示例代碼：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

url = 'https://huggingface.co/qantev/trocr-large-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('qantev/trocr-large-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-large-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

基於Transformer架構：TrOCR模型架構基於Transformer框架，由圖像Transformer作為編碼器，文本Transformer作為解碼器，能夠利用預訓練模型進行圖像理解和語言建模，實現了先進的性能。
西班牙語微調：針對西班牙語進行了專門的微調，在西班牙語OCR任務上表現出色。

📚 詳細文檔

模型介紹

TrOCR模型架構基於Transformer框架，包含一個圖像Transformer作為編碼器和一個文本Transformer作為解碼器。編碼器接收輸入圖像，將其分解為圖像塊並處理以獲得視覺特徵。解碼器則利用這些特徵，以自迴歸的方式生成詞片序列，生成過程受視覺信息和先前預測的引導。

數據集

由於沒有公開可用的西班牙語OCR訓練和測試數據集，我們決定創建自己的數據集。具體做法是抓取了131,000個隨機維基百科頁面，並提取了2,000,000個樣本，樣本範圍從單個單詞到包含10個單詞的句子。隨後，我們從這些樣本中人工生成圖像，並應用了各種數據增強技術，得到了如下結果：生成的數據集注意：我們發現，在訓練過程中即時生成圖像比從現有文件夾中讀取圖像更快。

指標

遺憾的是，目前沒有專門用於評估西班牙語OCR性能的基準數據集。為了展示我們的OCR效果，我們在西班牙語的XFUND數據集上對小型、基礎和大型模型進行了基準測試，並與EasyOCR進行了比較。

屬性	詳情
模型類型	TrOCR（大型模型）
訓練數據	抓取131,000個隨機維基百科頁面，提取2,000,000個樣本生成的數據集

模型	字符錯誤率 (CER)	單詞錯誤率 (WER)
EasyOCR	0.1916	0.3353
qantev/trocr-small-spanish	0.1059	0.2545
qantev/trocr-base-spanish	0.0732	0.2028
qantev/trocr-large-spanish	0.0632	0.1817

⚠️ 重要提示

請注意，XFUND數據集中包含標註錯誤的數據，這可能會影響本基準測試的結果。

預期用途和限制

用途：該模型可用於印刷字體的西班牙語OCR任務。
限制：此模型未在手寫文本上進行訓練，因此可能無法準確識別手寫內容。此外，在準確讀取兩行文本或垂直文本方面，其性能有限。該模型需要與文本檢測模型結合使用。

📄 許可證

本項目採用MIT許可證。

📝 引用

@misc{lauar2024spanishtrocrleveragingtransfer,
      title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation}, 
      author={Filipe Lauar and Valentin Laurent},
      year={2024},
      eprint={2407.06950},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.06950}, 
}