🚀 モデルカード: Pix2Text-MFR
このモデルは、数学公式を画像からLaTeXテキスト表現に変換するための数学公式認識(MFR)モデルです。Pix2Text (P2T) をベースに開発されています。
🚀 クイックスタート
このモデルを使用することで、数学公式の画像をLaTeXテキスト表現に変換できます。以下に、具体的な使用方法や制限事項などを説明します。
✨ 主な機能
- 数学公式画像をLaTeXテキスト表現に変換することができます。
- 印刷体や手書きの数学公式画像に対応しています。
📦 インストール
このモデルを使用するには、いくつかの依存関係をインストールする必要があります。具体的なインストール方法は以下の通りです。
方法1: モデルを直接使用する場合
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq
processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')
方法2: Pix2Textを使用する場合
まず、Pix2Textをインストールします。
$ pip install pix2text>=1.1
次に、以下のコードを実行します。
from pix2text import Pix2Text, merge_line_texts
image_fps = [
'examples/example.jpg',
'examples/42.png',
'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)
outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')
print(outs2)
方法3: ノートブックを使用する場合
以下のノートブックを使用して、Pix2Textを試すことができます。
https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb
💻 使用例
基本的な使用法
上記のインストール方法に従って、モデルを使用することができます。以下に、具体的な使用例を示します。
印刷体公式画像

手書き公式画像

📚 ドキュメント
🔧 技術詳細
このMFRモデルは、Microsoftによって開発されたTrOCRアーキテクチャを利用しています。初期値から始めて、数学公式画像のデータセットを使用して再学習されています。得られたMFRモデルは、数学公式の画像をLaTeXテキスト表現に変換することができます。詳細は、Pix2Text V1.0 新版リリース: 最高のオープンソース公式認識モデル | Breezedeus.comを参照してください。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
使用と制限
- 用途: このモデルは数学公式認識モデルであり、入力された数学公式の画像をLaTeXテキスト表現に変換することができます。
- 制限: このモデルは数学公式の画像で学習されているため、他のタイプの画像を認識する際には機能しない可能性があります。
性能
テストデータの元画像は、Pix2Textオンラインサービスでユーザーがアップロードした実データに由来しています。まず特定の期間の実ユーザーデータを選択し、次にPix2Text内の数学公式検出モデル(MFD)を使用してこれらの画像内の数学公式を検出し、対応する部分を切り取ります。その後、これらの公式画像のサブセットをランダムに選択して手動でアノテーションを付け、テストデータセットを作成します。以下の画像は、テストデータセットの一部のサンプル画像を示しています。テストデータセットの画像は非常に多様で、単一の文字から公式グループ、さらには行列まで、様々な長さと複雑さの数学公式が含まれていることがわかります。このテストデータセットには485
枚の画像が含まれています。

以下は、このテストデータセットにおける各モデルの文字誤り率(CER、低いほど良い)です。真のアノテーション結果と各モデルの出力には、まず正規化を行い、空白などの関係のない要素がテスト結果に影響しないようにしています。Texifyの認識結果については、まず公式の先頭と末尾の記号$
または$$
を削除します。

上の図からわかるように、Pix2Text V1.0 MFRのオープンソース無料版モデルは、以前のバージョンの有料モデルを大幅に上回っています。さらに、V1.0 MFRのオープンソース無料モデルと比較すると、Pix2Text V1.0 MFRの有料モデルの精度はさらに向上しています。
Texify は、標準的なフォーマットの画像を認識するのに適しています。しかし、単一の文字を含む画像の認識には不向きです。これが、TexifyがこのテストデータセットでLatex-OCRよりも性能が劣る主な理由です。
フィードバック
モデルに関する質問やコメントは、作者 Breezedeus にお問い合わせください。