pix2text-mfrオープンソース数学公式認識モデル - 公式画像を簡単にLaTeXテキストに変換

ホーム

Pix2text Mfr

breezedeusによって開発

Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャで訓練されており、数式画像をLaTeXテキスト表現に変換できます。

文字認識

Transformers

オープンソースライセンス:MIT #数式認識 #LaTeX変換 #印刷・手書き両対応

ダウンロード数 5,753

リリース時間 : 2/11/2024

モデル概要

このモデルは数式認識専用に設計されており、入力された数式画像をLaTeXテキスト表現に変換します。印刷体と手書き体の数式認識に適しています。

モデル特徴

高精度認識

テストデータセットにおいて他のオープンソース数式認識モデルよりも優れた性能を発揮し、文字誤り率(CER)が低いです。

多様な入力対応

印刷体と手書き体の数式画像を認識できます。

柔軟な使用方法

モデルを直接使用するか、Pix2Textを通じてより複雑な認識タスクを実行できます。

モデル能力

数式画像認識

LaTeXテキスト生成

印刷体数式認識

手書き体数式認識

使用事例

教育

数学問題認識

教科書や試験問題の数学問題を編集可能なLaTeX形式に変換します。

問題の編集と整理の効率を向上させます。

研究

論文数式抽出

研究論文から数式を抽出して再編集や分析を行います。

研究者が数式を再利用・研究するのに便利です。

🚀 モデルカード: Pix2Text-MFR

このモデルは、数学公式を画像からLaTeXテキスト表現に変換するための数学公式認識（MFR）モデルです。Pix2Text (P2T) をベースに開発されています。

🚀 クイックスタート

このモデルを使用することで、数学公式の画像をLaTeXテキスト表現に変換できます。以下に、具体的な使用方法や制限事項などを説明します。

✨ 主な機能

数学公式画像をLaTeXテキスト表現に変換することができます。
印刷体や手書きの数学公式画像に対応しています。

📦 インストール

このモデルを使用するには、いくつかの依存関係をインストールする必要があります。具体的なインストール方法は以下の通りです。

方法1: モデルを直接使用する場合

#! pip install transformers>=4.37.0 pillow optimum[onnxruntime]
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq

processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')

方法2: Pix2Textを使用する場合

まず、Pix2Textをインストールします。

$ pip install pix2text>=1.1

次に、以下のコードを実行します。

#! pip install pix2text>=1.1

from pix2text import Pix2Text, merge_line_texts

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)  # 純粋な公式画像を認識

outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')  # 混合画像を認識
print(outs2)

方法3: ノートブックを使用する場合

以下のノートブックを使用して、Pix2Textを試すことができます。 https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb

💻 使用例

基本的な使用法

上記のインストール方法に従って、モデルを使用することができます。以下に、具体的な使用例を示します。

印刷体公式画像

印刷体公式の例

手書き公式画像

手書き公式の例

📚 ドキュメント

Pix2Text V1.0 新版リリース: 最高のオープンソース公式認識モデル | Breezedeus.com ;
Pix2Text (P2T) のGithub: breezedeus/pix2text ;
Pix2Textのオンライン無料サービス: p2t.breezedeus.com ;
Pix2Textのオンラインドキュメント: Docs ;
Pix2Textの詳細情報: breezedeus.com/pix2text ;
Pix2TextのDiscord: https://discord.gg/GgD87WM8Tf

🔧 技術詳細

このMFRモデルは、Microsoftによって開発されたTrOCRアーキテクチャを利用しています。初期値から始めて、数学公式画像のデータセットを使用して再学習されています。得られたMFRモデルは、数学公式の画像をLaTeXテキスト表現に変換することができます。詳細は、Pix2Text V1.0 新版リリース: 最高のオープンソース公式認識モデル | Breezedeus.comを参照してください。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

使用と制限

用途: このモデルは数学公式認識モデルであり、入力された数学公式の画像をLaTeXテキスト表現に変換することができます。
制限: このモデルは数学公式の画像で学習されているため、他のタイプの画像を認識する際には機能しない可能性があります。

性能

テストデータの元画像は、Pix2Textオンラインサービスでユーザーがアップロードした実データに由来しています。まず特定の期間の実ユーザーデータを選択し、次にPix2Text内の数学公式検出モデル（MFD）を使用してこれらの画像内の数学公式を検出し、対応する部分を切り取ります。その後、これらの公式画像のサブセットをランダムに選択して手動でアノテーションを付け、テストデータセットを作成します。以下の画像は、テストデータセットの一部のサンプル画像を示しています。テストデータセットの画像は非常に多様で、単一の文字から公式グループ、さらには行列まで、様々な長さと複雑さの数学公式が含まれていることがわかります。このテストデータセットには485枚の画像が含まれています。

テストデータの例

以下は、このテストデータセットにおける各モデルの文字誤り率（CER、低いほど良い）です。真のアノテーション結果と各モデルの出力には、まず正規化を行い、空白などの関係のない要素がテスト結果に影響しないようにしています。Texifyの認識結果については、まず公式の先頭と末尾の記号$または$$を削除します。

異なるMFRモデル間のCER比較