🚀 TrOCR(大型模型)
TrOCR是一個基於Transformer架構的光學字符識別(OCR)模型,本項目推出了TrOCR大型模型的新版本,該版本在自行生成的西班牙語數據集上進行了微調。此模型適用於印刷字體識別,但不支持手寫識別。
🚀 快速開始
以下是如何在PyTorch中使用該模型的示例代碼:
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-large-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-large-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-large-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 基於Transformer架構:TrOCR模型架構基於Transformer框架,由圖像Transformer作為編碼器,文本Transformer作為解碼器,能夠利用預訓練模型進行圖像理解和語言建模,實現了先進的性能。
- 西班牙語微調:針對西班牙語進行了專門的微調,在西班牙語OCR任務上表現出色。
📚 詳細文檔
模型介紹
TrOCR模型架構基於Transformer框架,包含一個圖像Transformer作為編碼器和一個文本Transformer作為解碼器。
編碼器接收輸入圖像,將其分解為圖像塊並處理以獲得視覺特徵。解碼器則利用這些特徵,以自迴歸的方式生成詞片序列,生成過程受視覺信息和先前預測的引導。
數據集
由於沒有公開可用的西班牙語OCR訓練和測試數據集,我們決定創建自己的數據集。具體做法是抓取了131,000個隨機維基百科頁面,並提取了2,000,000個樣本,樣本範圍從單個單詞到包含10個單詞的句子。
隨後,我們從這些樣本中人工生成圖像,並應用了各種數據增強技術,得到了如下結果:
注意:我們發現,在訓練過程中即時生成圖像比從現有文件夾中讀取圖像更快。
指標
遺憾的是,目前沒有專門用於評估西班牙語OCR性能的基準數據集。為了展示我們的OCR效果,我們在西班牙語的XFUND數據集上對小型、基礎和大型模型進行了基準測試,並與EasyOCR進行了比較。
屬性 |
詳情 |
模型類型 |
TrOCR(大型模型) |
訓練數據 |
抓取131,000個隨機維基百科頁面,提取2,000,000個樣本生成的數據集 |
模型 |
字符錯誤率 (CER) |
單詞錯誤率 (WER) |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
⚠️ 重要提示
請注意,XFUND數據集中包含標註錯誤的數據,這可能會影響本基準測試的結果。
預期用途和限制
- 用途:該模型可用於印刷字體的西班牙語OCR任務。
- 限制:此模型未在手寫文本上進行訓練,因此可能無法準確識別手寫內容。此外,在準確讀取兩行文本或垂直文本方面,其性能有限。該模型需要與文本檢測模型結合使用。
📄 許可證
本項目採用MIT許可證。
📝 引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
🤝 招聘信息
我們正在各個級別招聘(包括全職研究人員和實習生)!如果您有興趣與我們一起從事計算機視覺、自然語言處理和文檔人工智能方面的工作,請將您的簡歷發送至jobs@qantev.com,或在Qantev招聘板上申請眾多開放職位。
📞 聯繫我們
如有任何問題,請通過research [at] qantev [dot] com與我們聯繫。