im2latexオープンソースモデル - 無料でデプロイ可能、画像を簡単にLaTeX数式に変換！

ホーム

Im2latex

DGurgurovによって開発

VisionEncoderDecoderModelをベースとしたモデルで、画像からLaTeX数式を生成するデータセットでファインチューニングされています。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #画像からLaTeXへ #数式認識 #Swin-GPTアーキテクチャ

ダウンロード数 288

リリース時間 : 7/15/2024

モデル概要

このモデルは数学式を含む画像をLaTeXコードに変換でき、学術文書処理や数式認識などのシナリオに適しています。

モデル特徴

ハイブリッドアーキテクチャ

視覚エンコーダ(Swin Transformer)とテキストデコーダ(GPT-2)を組み合わせ、画像からテキストへの変換タスクを効果的に処理

高精度数式認識

テストセットで0.67のBLEUスコアを達成し、複雑な数学式を正確に認識可能

分散トレーニング

PyTorchの分散データ並列(DDP)を使用して効率的にトレーニング

モデル能力

画像認識

数学式変換

LaTeXコード生成

使用事例

学術研究

論文数式のデジタル化

スキャン文書や画像中の数学式を編集可能なLaTeXコードに変換

学術文書処理の効率向上

教育支援ツール

学生や教師が画像中の数式のLaTeX表現を迅速に取得

数学コンテンツの共有と教育の利便性向上

文書処理

PDF数式抽出

PDF文書から数式画像を抽出し編集可能な形式に変換

文書編集プロセスの簡素化

🚀 im2latex

このモデルは、画像からLaTeX数式を生成するためのデータセットでファインチューニングされた基本的なVisionEncoderDecoderModelです。

✨ 主な機能

このモデルは画像からLaTeX数式を生成することができ、Swin Transformerをエンコーダ、GPT - 2をデコーダとして使用しています。

📦 インストール

このモデルはtransformersライブラリを使用して直接利用できます。以下のコードでモデルをロードできます。

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image

# モデル、トークナイザー、特徴抽出器をロード
model = VisionEncoderDecoderModel.from_pretrained("DGurgurov/im2latex")
tokenizer = AutoTokenizer.from_pretrained("DGurgurov/im2latex")
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k") # 現時点では元の特徴抽出器を使用

💻 使用例

基本的な使用法

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image

# モデル、トークナイザー、特徴抽出器をロード
model = VisionEncoderDecoderModel.from_pretrained("DGurgurov/im2latex")
tokenizer = AutoTokenizer.from_pretrained("DGurgurov/im2latex")
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k") # 現時点では元の特徴抽出器を使用

# 画像を準備
image = Image.open("path/to/your/image.png")
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

# LaTeX数式を生成
generated_ids = model.generate(pixel_values)
generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

print("生成されたLaTeX数式:", generated_texts[0])

📚 ドキュメント

モデルの詳細

属性	詳情
エンコーダ	Swin Transformer
デコーダ	GPT - 2
フレームワーク	PyTorch
DDP (Distributed Data Parallel)	学習に使用

学習データ

データはOleehyO/latex-formulasから取得されました。データは学習、検証、テスト用に80:10:10に分割されました。分割は以下のように行われました。

dataset = load_dataset(OleehyO/latex-formulas, cleaned_formulas)
train_val_split = dataset["train"].train_test_split(test_size=0.2, seed=42)
train_ds = train_val_split["train"]
val_test_split = train_val_split["test"].train_test_split(test_size=0.5, seed=42)
val_ds = val_test_split["train"]
test_ds = val_test_split["test"]

評価指標

モデルはテストセットで評価され、以下の結果が得られました。

テスト損失: 0.10
テストBLEUスコア: 0.67

学習スクリプト

このモデルの学習スクリプトは以下のリポジトリで見つけることができます。GitHub

引用

この研究でこのモデルを使用する場合は、以下の論文を引用してください。

@misc{gurgurov2024imagetolatexconvertermathematicalformulas,
      title={Image-to-LaTeX Converter for Mathematical Formulas and Text}, 
      author={Daniil Gurgurov and Aleksey Morshnev},
      year={2024},
      eprint={2408.04015},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.04015}, 
}