trocr-base-spanish開源模型 - 專為西班牙語印刷字體識別設計的實用工具

首頁

Trocr Base Spanish

由qantev開發

TrOCR基礎版模型，專為西班牙語印刷字體設計，基於Transformer架構，在自建數據集上微調

文字識別

Transformers

支持多種語言開源協議:MIT #西班牙語OCR #印刷體識別 #Transformer架構

下載量 170

發布時間 : 2/22/2024

模型概述

基於Transformer的光學字符識別模型，用於將印刷體圖像轉換為文本，不支持手寫體識別

模型特點

西班牙語優化

在200萬西班牙語樣本的自建數據集上微調，專門優化西班牙語OCR性能

動態圖像生成

訓練過程中採用動態圖像生成技術，相比預存圖像方式效率更高

印刷體專用

專門針對印刷字體設計，不支持手寫體識別

模型能力

印刷體圖像轉文本

西班牙語OCR

短文本識別（最多10個單詞）

使用案例

文檔數字化

維基百科內容提取

從西班牙語維基百科頁面圖像中提取文本內容

表單處理

XFUND數據集處理

處理西班牙語XFUND數據集中的表單圖像

CER 0.0732 / WER 0.2028

🚀 TrOCR（基礎尺寸模型）

我們推出了基礎版TrOCR模型的新版本，該版本在自行生成的西班牙語文本數據集上進行了微調。TrOCR架構最初由Li等人在論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出，相關代碼可在關聯倉庫中獲取。此模型專門用於印刷字體識別，不支持手寫識別。

🚀 快速開始

此模型可用於圖像轉文本任務，以下是在PyTorch中使用該模型的示例代碼：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

url = 'https://huggingface.co/qantev/trocr-base-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('qantev/trocr-base-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-base-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

基於Transformer架構：TrOCR模型架構基於Transformer框架，由圖像Transformer作為編碼器，文本Transformer作為解碼器。
利用預訓練模型：能夠利用預訓練模型進行圖像理解和語言建模，從而實現最先進的性能。
針對西班牙語微調：在自行生成的西班牙語文本數據集上進行了微調，適用於西班牙語的光學字符識別任務。

📚 詳細文檔

模型介紹

TrOCR模型架構基於Transformer框架，由圖像Transformer作為編碼器，文本Transformer作為解碼器。編碼器接收輸入圖像，將其分解為圖像塊並處理以獲取視覺特徵。解碼器利用這些特徵，以自迴歸的方式生成詞片序列，受視覺信息和先前預測的引導。這種設計使TrOCR能夠利用預訓練模型進行圖像理解和語言建模，從而實現最先進的性能。

數據集

由於沒有公開可用的西班牙語OCR訓練和測試數據集，我們選擇創建自己的數據集。具體做法是抓取了131,000個隨機維基百科頁面，並提取了2,000,000個樣本，範圍從單字實例到10個單詞的句子。隨後，我們從這些樣本中人工生成圖像，並應用了各種數據增強技術，得到了如下結果：生成的數據集注意：我們發現訓練期間即時生成圖像比從現有文件夾中讀取圖像更快。

評估指標

遺憾的是，目前沒有專門用於評估西班牙語光學字符識別（OCR）性能的既定基準數據集。為了說明我們的OCR效果，我們展示了在XFUND西班牙文數據集上對小、基礎和大模型的基準測試結果。此外，我們還與EasyOCR進行了比較分析。

屬性	詳情
模型類型	TrOCR（基礎尺寸模型）
訓練數據	抓取131,000個隨機維基百科頁面，提取2,000,000個樣本生成的圖像

模型	CER	WER
EasyOCR	0.1916	0.3353
qantev/trocr-small-spanish	0.1059	0.2545
qantev/trocr-base-spanish	0.0732	0.2028
qantev/trocr-large-spanish	0.0632	0.1817

⚠️ 重要提示

請注意，XFUND數據集包含標註錯誤的數據，這可能會影響此基準測試的結果。

預期用途和侷限性

雖然此模型可免費使用，但需要注意的是，它未在手寫文本上進行訓練，因此可能無法準確識別手寫內容。此外，在準確讀取兩行文本或垂直文本方面，其能力有限。此模型必須與文本檢測模型結合使用。

📄 許可證

本項目採用MIT許可證。

📎 引用

@misc{lauar2024spanishtrocrleveragingtransfer,
      title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation}, 
      author={Filipe Lauar and Valentin Laurent},
      year={2024},
      eprint={2407.06950},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.06950}, 
}