🚀 模型卡:Pix2Text-MFR
Pix2Text-MFR 是一款數學公式識別模型,它基於 Pix2Text (P2T) 開發,能夠將數學公式圖像精準轉換為 LaTeX 文本表示,為處理數學公式圖像提供了高效解決方案。
🚀 快速開始
本模型可通過不同方式使用,下面為你詳細介紹:
方法一:直接使用模型
此方法無需安裝 pix2text
,但僅能識別純公式圖片。
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq
processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')
方法二:使用 Pix2Text
該方法需安裝 pix2text
,藉助其中的數學公式檢測模型(MFD),不僅能識別純公式圖片,還可識別包含文本的混合圖片。
$ pip install pix2text>=1.1
from pix2text import Pix2Text, merge_line_texts
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)
outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')
print(outs2)
方法三:使用 Notebook
你可以通過此 Notebook 體驗 Pix2Text:https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb。
✨ 主要特性
- 精準識別:能夠準確將數學公式圖片轉換為 LaTeX 文本表示。
- 多方式使用:支持直接使用模型、藉助 Pix2Text 以及通過 Notebook 等多種使用方式。
- 適用場景廣泛:不僅能處理純公式圖片,還能識別包含文本的混合圖片。
📦 安裝指南
根據使用方法的不同,安裝要求如下:
直接使用模型
pip install transformers>=4.37.0 pillow optimum[onnxruntime]
使用 Pix2Text
pip install pix2text>=1.1
💻 使用示例
基礎用法
印刷體公式圖片

手寫體公式圖片

高級用法
上述使用示例中的代碼展示了模型在不同場景下的使用,如直接使用模型和藉助 Pix2Text 進行識別,可根據實際需求靈活運用。
📚 詳細文檔
🔧 技術細節
此 MFR 模型採用了微軟開發的 TrOCR 架構,以其初始值為基礎,並利用數學公式圖片數據集進行重新訓練。通過這種方式,模型能夠學習到數學公式圖像的特徵,從而實現將數學公式圖片轉換為 LaTeX 文本表示的功能。更多細節請見:Pix2Text V1.0 新版發佈:最好的開源公式識別模型 | Breezedeus.com。
測試數據對應的原始圖片來源於 Pix2Text 網頁版 用戶上傳的真實數據。具體步驟為:首先選取一段時間內用戶的真實數據,然後利用 Pix2Text 中數學公式檢測模型(MFD)檢測出這些圖片中的數學公式並截取出對應的部分,再從中隨機選取部分公式圖片進行人工標註,最終得到用於測試的測試數據集。該測試數據集包含 485
張圖片,圖片類型多樣,涵蓋了各種不同長度和複雜度的數學公式,有單個字母的圖片,也有公式組甚至矩陣圖片。
以下是各個模型在此測試數據集上的 CER(字錯誤率,越小越好)。為保證測試結果不受空格等無關因素影響,對真實標註結果以及每個模型的輸出都首先進行了標準化處理。對於 Texify 的識別結果,會首先去掉公式的首尾符號 $
或 $$
。

由上圖可見,Pix2Text V1.0 MFR 開源免費版模型已經大大優於之前版本的付費模型。而相比 V1.0 MFR 開源免費模型,Pix2Text V1.0 MFR 付費模型精度得到了進一步的提升。
⚠️ 重要提示
Texify 更適用於識別標準排版的圖片,它對包含單字母的圖片識別較差。這也是 Texify 在此測試數據集上效果比 Latex-OCR 還差的主要原因。
📄 許可證
本項目採用 MIT 許可證。
📬 反饋
歡迎就模型相關問題或建議聯繫作者 Breezedeus。