🚀 モデルカード: Pix2Text-MFR
Pix2Text-MFRは、Pix2Text (P2T) から提供される数学公式認識(MFR)モデルです。このモデルは、数学公式の画像をLaTeXテキスト表現に変換することができ、多様な数学公式の認識に役立ちます。
🚀 クイックスタート
このモデルをすぐに使い始めるには、以下のセクションを参照してください。
✨ 主な機能
- 数学公式画像をLaTeXテキスト表現に変換することができます。
- 印刷体と手書きの数学公式画像の両方を認識できます。
- 純粋な公式画像だけでなく、テキストを含む混合画像も認識できます。
📦 インストール
方法2: Pix2Textを使用する場合
この方法では、Pix2Textをインストールする必要があります。以下のコマンドを実行してください。
$ pip install pix2text>=1.1
💻 使用例
基本的な使用法
方法1: モデルを直接使用する
この方法では、pix2textをインストールする必要はありませんが、純粋な公式画像のみを認識できます。
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq
processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')
方法2: Pix2Textを使用する
この方法では、pix2textをインストールする必要があります。Pix2Text内の数学公式検出モデル(MFD)を利用して、純粋な公式画像だけでなく、テキストを含む混合画像も認識できます。
from pix2text import Pix2Text, merge_line_texts
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)
outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')
print(outs2)
方法3: Notebookを使用する
このNotebookを使って、Pix2Textを試してみてください。
https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb
高度な使用法
高度な使用法については、以下のドキュメントを参照してください。
📚 ドキュメント
🔧 技術詳細
モデルの詳細
このMFRモデルは、Microsoftによって開発された TrOCR アーキテクチャを利用しています。このアーキテクチャを初期値として、数学公式画像のデータセットを使用して再学習されています。得られたMFRモデルは、数学公式の画像をLaTeXテキスト表現に変換するために使用できます。詳細については、Pix2Text V1.0 New Release: The Best Open-Source Formula Recognition Model | Breezedeus.com を参照してください。
性能
テストデータの元画像は、Pix2Text Online Service でユーザーがアップロードした実データに由来しています。まず、特定の期間の実ユーザーデータを選択し、次にPix2Text内の数学公式検出モデル(MFD)を使用して、これらの画像内の数学公式を検出し、対応する部分を切り取ります。その後、これらの公式画像のサブセットをランダムに選択して手動でアノテーションを付け、テストデータセットを作成します。以下の画像は、テストデータセットの一部のサンプル画像を示しています。テストデータセットの画像は非常に多様で、単一の文字から公式グループ、さらには行列まで、様々な長さと複雑さの数学公式が含まれています。このテストデータセットには 485
枚の画像が含まれています。

以下は、このテストデータセットにおける各モデルの文字誤り率(CER、値が低いほど良い)です。真のアノテーション結果と各モデルの出力には、まず正規化が行われ、スペースなどの関係のない要素がテスト結果に影響しないようにしています。Texifyの認識結果については、まず公式の先頭と末尾の記号 $
または $$
が削除されます。

上の図からわかるように、Pix2Text V1.0 MFRのオープンソース無料版モデルは、以前のバージョンの有料モデルを大幅に上回っています。さらに、V1.0 MFRのオープンソース無料モデルと比較すると、Pix2Text V1.0 MFRの有料モデルの精度はさらに向上しています。
Texify は、標準的な書式の画像の認識に適しています。しかし、単一の文字を含む画像の認識は苦手です。これが、TexifyがこのテストデータセットでLatex-OCRよりも性能が劣る主な理由です。
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。
📄 フィードバック
モデルに関する質問やコメントは、作者 Breezedeus にお問い合わせください。