🚀 TrOCR(基礎尺寸模型)
我們推出了基礎版TrOCR模型的新版本,該版本在自行生成的西班牙語文本數據集上進行了微調。TrOCR架構最初由Li等人在論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出,相關代碼可在關聯倉庫中獲取。此模型專門用於印刷字體識別,不支持手寫識別。
🚀 快速開始
此模型可用於圖像轉文本任務,以下是在PyTorch中使用該模型的示例代碼:
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests
url = 'https://huggingface.co/qantev/trocr-base-spanish/resolve/main/example_1.png'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
processor = TrOCRProcessor.from_pretrained('qantev/trocr-base-spanish')
model = VisionEncoderDecoderModel.from_pretrained('qantev/trocr-base-spanish')
pixel_values = processor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 基於Transformer架構:TrOCR模型架構基於Transformer框架,由圖像Transformer作為編碼器,文本Transformer作為解碼器。
- 利用預訓練模型:能夠利用預訓練模型進行圖像理解和語言建模,從而實現最先進的性能。
- 針對西班牙語微調:在自行生成的西班牙語文本數據集上進行了微調,適用於西班牙語的光學字符識別任務。
📚 詳細文檔
模型介紹
TrOCR模型架構基於Transformer框架,由圖像Transformer作為編碼器,文本Transformer作為解碼器。
編碼器接收輸入圖像,將其分解為圖像塊並處理以獲取視覺特徵。解碼器利用這些特徵,以自迴歸的方式生成詞片序列,受視覺信息和先前預測的引導。這種設計使TrOCR能夠利用預訓練模型進行圖像理解和語言建模,從而實現最先進的性能。
數據集
由於沒有公開可用的西班牙語OCR訓練和測試數據集,我們選擇創建自己的數據集。具體做法是抓取了131,000個隨機維基百科頁面,並提取了2,000,000個樣本,範圍從單字實例到10個單詞的句子。
隨後,我們從這些樣本中人工生成圖像,並應用了各種數據增強技術,得到了如下結果:
注意:我們發現訓練期間即時生成圖像比從現有文件夾中讀取圖像更快。
評估指標
遺憾的是,目前沒有專門用於評估西班牙語光學字符識別(OCR)性能的既定基準數據集。為了說明我們的OCR效果,我們展示了在XFUND西班牙文數據集上對小、基礎和大模型的基準測試結果。此外,我們還與EasyOCR進行了比較分析。
屬性 |
詳情 |
模型類型 |
TrOCR(基礎尺寸模型) |
訓練數據 |
抓取131,000個隨機維基百科頁面,提取2,000,000個樣本生成的圖像 |
模型 |
CER |
WER |
EasyOCR |
0.1916 |
0.3353 |
qantev/trocr-small-spanish |
0.1059 |
0.2545 |
qantev/trocr-base-spanish |
0.0732 |
0.2028 |
qantev/trocr-large-spanish |
0.0632 |
0.1817 |
⚠️ 重要提示
請注意,XFUND數據集包含標註錯誤的數據,這可能會影響此基準測試的結果。
預期用途和侷限性
雖然此模型可免費使用,但需要注意的是,它未在手寫文本上進行訓練,因此可能無法準確識別手寫內容。此外,在準確讀取兩行文本或垂直文本方面,其能力有限。此模型必須與文本檢測模型結合使用。
📄 許可證
本項目採用MIT許可證。
📎 引用
@misc{lauar2024spanishtrocrleveragingtransfer,
title={Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation},
author={Filipe Lauar and Valentin Laurent},
year={2024},
eprint={2407.06950},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.06950},
}
🤝 聯繫我們
如有任何問題或建議,請通過research [at] qantev [dot] com與我們聯繫。
👨💼 招聘信息
我們正在各個級別招聘(包括全職研究人員和實習生)!如果您有興趣與我們一起從事計算機視覺、自然語言處理和文檔人工智能方面的工作,請將您的簡歷發送至jobs@qantev.com,或在Qantev招聘板上申請眾多開放職位。