latex_finetunedオープンソースOCRモデル - 手書き数学画像と構造化構文の無料処理

ホーム

Latex Finetuned

tjoabによって開発

Transformerベースの光学文字認識モデルで、手書き数式画像と構造化数学構文の処理に最適化されています。

文字認識

Transformers

#手書き数式OCR #LaTeX変換 #構造化数学構文

ダウンロード数 109

リリース時間 : 3/2/2025

モデル概要

手書き数式を整ったLaTeXコードに変換し、単一の数式表現のOCR認識に適しています。

モデル特徴

手書き数式認識

手書き数式に特化して最適化されており、複雑な数式表現を正確に認識できます。

LaTeX出力

認識結果を整ったLaTeXコードに変換し、学術・技術文書での利用に便利です。

効率的なトレーニング

混合精度トレーニングと勾配蓄積技術を採用し、トレーニング効率とメモリ使用を最適化しています。

モデル能力

手書き数式認識

LaTeXコード生成

画像からテキストへの変換

使用事例

学術研究

手書き数学ノートのデジタル化

手書きの数学ノートを編集可能なLaTeX形式に変換し、学術論文作成を容易にします。

CERが14.9%

教育

数学課題の自動採点

学生の手書き数学課題の解答を認識し、自動採点や形式変換を行います。

🚀 TrOCR-LaTeX (手書き数学に対するファインチューニング版)

手書きの数学式を美しいLaTeXコードに変換します。これは、microsoft/trocr-base-handwritten をファインチューニングしたバージョンで、トランスフォーマーベースの光学文字認識モデルを手書き数学画像と構造化された数学構文に適応させています。

✨ 主な機能

手書きの数学式をLaTeXコードに変換することができます。
トランスフォーマーベースの光学文字認識モデルを手書き数学画像に適応させています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# Helper funtion (path to either JPEG or PNG)
def open_PIL_image(image_path: str) -> Image.Image:
  image = Image.open(image_path)
  if image_path.split('.')[-1].lower() == 'png':
      image = Image.composite(image, PIL.Image.new('RGB', image.size, 'white'), image)
  return image


# Load model and processor from Hugging Face
processor = TrOCRProcessor.from_pretrained('tjoab/latex_finetuned')
model = VisionEncoderDecoderModel.from_pretrained('tjoab/latex_finetuned')


# Load all images as a batch
images = [open_PIL_image(path) for path in paths]

# Preprocess the images 
preproc_image = processor.image_processor(images=images, return_tensors="pt").pixel_values

# Generate and decode the tokens
# NOTE: max_length default value is very small, which often results in truncated inference if not set 
pred_ids = model.generate(preproc_image, max_length=128)
latex_preds = processor.batch_decode(pred_ids, skip_special_tokens=True)

📚 詳細ドキュメント

データ

GoogleのMathWritingデータセットでファインチューニングされています。手動ラベリングまたはプログラムによる生成を通じて取得された50万以上の手書き数学式のデジタルインクが含まれています。

想定される使用方法と制限

このモデルは、単一の数学式に対するOCRに使用できます。

非常に長い式では性能が低下します（画像の前処理によるもので、3:2のアスペクト比が最適なようです）。

式のチャンキングスキームを作成して、画像をサブ画像に分割し、それぞれを処理することでこの制限を回避できます。
複数の式を処理するには、グループを単一の式に分割する必要があります。

🔧 技術詳細

ミニバッチサイズ: 8
オプティマイザ: Adam
LRスケジューラ: cosine
fp16 混合精度
- torch.cuda.amp を使用した自動混合精度 (AMP) で訓練され、メモリ使用量が削減されています。
勾配蓄積
- 1ステップあたりのメモリ消費を抑えながら、より大きな有効バッチサイズをシミュレートするために使用されます。
- オプティマイザのステップは、8つのミニバッチごとに行われます。

評価

性能は、Character Error Rate (CER) を使用して評価されました。CERは以下のように定義されます。

CER = (置換 + 挿入 + 削除) / 正解データの総文字数

⚠️ なぜCERを使用するのか？
- 数学式は構造的に敏感です。たった1文字でも入れ替えると、意味が完全に変わってしまいます。
  - x^2 と x_2
  - \frac{a}{b} と \frac{b}{a}
- CERは、構文の小さなエラーにペナルティを与えます。
評価の結果、CERは14.9%でした。

📄 ライセンス

このREADMEにはライセンス情報が記載されていないため、このセクションは省略されます。

引用

元のTrORCモデルは、以下の論文で紹介されています。

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models by Li et al.

ソースコードは彼らのリポジトリで見つけることができます。

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}