pix2text-mfr-quantizedオープンソースモデル - 数学公式の画像を無料でLaTeXテキストに変換

ホーム

Pix2text Mfr Quantized

Brian314によって開発

Pix2Textの数式認識(MFR)モデルで、TrOCRアーキテクチャに基づいて訓練され、数式画像をLaTeXテキスト表現に変換します。

文字認識

Transformers

オープンソースライセンス:MIT #数式認識 #LaTeX変換 #印刷体と手書き体の互換性

ダウンロード数 37

リリース時間 : 6/18/2024

モデル概要

このモデルは数式認識タスクに特化しており、印刷体と手書き体の数式画像を処理し、LaTeX形式のテキスト表現に変換できます。

モデル特徴

高精度数式認識

テストデータセットで同類のオープンソースモデルよりも優れた性能を発揮し、文字誤り率(CER)が低い

多様な数式タイプに対応

簡単な数式から複雑な行列まで、さまざまな数学式を認識可能

印刷体と手書き体の互換性

標準的な印刷体数式と手書き体数式画像を処理可能

モデル能力

数式画像からLaTeXテキストへの変換

印刷体数式認識

手書き体数式認識

複雑な数学式の処理

使用事例

教育

数学課題のデジタル化

学生が手書きした数学課題を編集可能なLaTeX形式に変換

教師の採点や学生の修正が容易になる

オンライン学習プラットフォーム

オンライン教育プラットフォームに数式認識機能を提供

プラットフォームの数学コンテンツ処理能力を強化

学術研究

論文からの数式抽出

学術論文から数学式を抽出

文献検索や分析が容易になる

🚀 モデルカード: Pix2Text-MFR

Pix2Text-MFRは、Pix2Text (P2T) から提供される数学公式認識（MFR）モデルです。このモデルは、数学公式の画像をLaTeXテキスト表現に変換することができ、多様な数学公式の認識に役立ちます。

🚀 クイックスタート

このモデルをすぐに使い始めるには、以下のセクションを参照してください。

✨ 主な機能

数学公式画像をLaTeXテキスト表現に変換することができます。
印刷体と手書きの数学公式画像の両方を認識できます。
純粋な公式画像だけでなく、テキストを含む混合画像も認識できます。

📦 インストール

方法2: Pix2Textを使用する場合

この方法では、Pix2Textをインストールする必要があります。以下のコマンドを実行してください。

$ pip install pix2text>=1.1

💻 使用例

基本的な使用法

方法1: モデルを直接使用する

この方法では、pix2textをインストールする必要はありませんが、純粋な公式画像のみを認識できます。

#! pip install transformers>=4.37.0 pillow optimum[onnxruntime]
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq

processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')

方法2: Pix2Textを使用する

この方法では、pix2textをインストールする必要があります。Pix2Text内の数学公式検出モデル（MFD）を利用して、純粋な公式画像だけでなく、テキストを含む混合画像も認識できます。

#! pip install pix2text>=1.1

from pix2text import Pix2Text, merge_line_texts

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)  # 純粋な公式画像を認識する

outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')  # 混合画像を認識する
print(outs2)

方法3: Notebookを使用する

このNotebookを使って、Pix2Textを試してみてください。 https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb

高度な使用法

高度な使用法については、以下のドキュメントを参照してください。

📚 ドキュメント

Pix2Text V1.0 New Release: The Best Open-Source Formula Recognition Model | Breezedeus.com
Pix2Text (P2T) Github: breezedeus/pix2text
Pix2Text Online Free Service: p2t.breezedeus.com
Pix2Text Online Docs: Docs
Pix2Text More: breezedeus.com/pix2text
Pix2Text Discard: https://discord.gg/GgD87WM8Tf

🔧 技術詳細

モデルの詳細

このMFRモデルは、Microsoftによって開発された TrOCR アーキテクチャを利用しています。このアーキテクチャを初期値として、数学公式画像のデータセットを使用して再学習されています。得られたMFRモデルは、数学公式の画像をLaTeXテキスト表現に変換するために使用できます。詳細については、Pix2Text V1.0 New Release: The Best Open-Source Formula Recognition Model | Breezedeus.com を参照してください。

性能

テストデータの元画像は、Pix2Text Online Service でユーザーがアップロードした実データに由来しています。まず、特定の期間の実ユーザーデータを選択し、次にPix2Text内の数学公式検出モデル（MFD）を使用して、これらの画像内の数学公式を検出し、対応する部分を切り取ります。その後、これらの公式画像のサブセットをランダムに選択して手動でアノテーションを付け、テストデータセットを作成します。以下の画像は、テストデータセットの一部のサンプル画像を示しています。テストデータセットの画像は非常に多様で、単一の文字から公式グループ、さらには行列まで、様々な長さと複雑さの数学公式が含まれています。このテストデータセットには 485 枚の画像が含まれています。

Examples from test data

以下は、このテストデータセットにおける各モデルの文字誤り率（CER、値が低いほど良い）です。真のアノテーション結果と各モデルの出力には、まず正規化が行われ、スペースなどの関係のない要素がテスト結果に影響しないようにしています。Texifyの認識結果については、まず公式の先頭と末尾の記号 $ または $$ が削除されます。

CER Comparison Among Different MFR Models