trocr-small-photomath開源數學表達式識別模型 - 免費實現精準光學字符識別

首頁

Trocr Small Photomath

由vukpetar開發

TrOCR是基於Transformer的光學字符識別模型，專為數學表達式識別微調，採用編碼器-解碼器架構，結合BEiT圖像編碼器和RoBERTa文本解碼器。

文字識別

Transformers

#數學公式OCR #Transformer架構 #單行文本識別

下載量 389

發布時間 : 3/2/2022

模型概述

該模型用於單行文本圖像的光學字符識別（OCR），特別針對數學表達式進行了優化。

模型特點

數學表達式專用

針對數學表達式識別進行專門微調，適合處理公式和符號

Transformer架構

採用先進的Transformer架構，結合視覺和語言處理能力

預訓練模型微調

基於BEiT和RoBERTa預訓練模型，具有強大的遷移學習能力

模型能力

單行文本識別

數學表達式識別

圖像到文本轉換

使用案例

教育技術

數學作業批改

自動識別學生手寫或打印的數學公式

提高批改效率，減少人工錯誤

文檔數字化

科技論文處理

將包含數學公式的紙質文檔轉換為可編輯文本

便於文檔檢索和內容分析

🚀 TrOCR（小型模型，在合成數學表達式數據集上微調）

TrOCR 模型在合成數學表達式數據集上進行了微調。該模型由 Li 等人在論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 中提出，並首次在此代碼庫中發佈。

免責聲明：發佈 TrOCR 的團隊並未為此模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

🚀 快速開始

您可以使用此原始模型對單行文本圖像進行光學字符識別（OCR）。可查看模型中心，尋找針對您感興趣的任務進行微調的版本。

✨ 主要特性

TrOCR 模型是一個編碼器 - 解碼器模型，由作為編碼器的圖像 Transformer 和作為解碼器的文本 Transformer 組成。圖像編碼器的權重初始化為 BEiT 的權重，而文本解碼器的權重初始化為 RoBERTa 的權重。

模型將圖像表示為固定大小的圖像塊序列（分辨率為 16x16），並對其進行線性嵌入。在將序列輸入到 Transformer 編碼器的各層之前，還會添加絕對位置嵌入。隨後，Transformer 文本解碼器自迴歸地生成標記。

📚 詳細文檔

模型描述

預期用途和侷限性

您可以使用此原始模型對單行文本圖像進行光學字符識別（OCR）。可查看模型中心，尋找針對您感興趣的任務進行微調的版本。

💻 使用示例

基礎用法

from transformers import VisionEncoderDecoderModel, AutoFeatureExtractor, AutoTokenizer
from PIL import Image
import requests

# load image from the IAM database
url = 'https://drive.google.com/uc?export=view&id=15dUjO44YDe1Agw_Qi8MyODRHpUFaCFw-'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

feature_extractor = AutoFeatureExtractor.from_pretrained('vukpetar/trocr-small-photomath')
tokenizer = AutoTokenizer.from_pretrained("vukpetar/trocr-small-photomath")
model = VisionEncoderDecoderModel.from_pretrained('vukpetar/trocr-small-photomath')
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📄 許可證

BibTeX 條目和引用信息

@misc{li2021trocr,
  title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
  author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
  year={2021},
  eprint={2109.10282},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}