🚀 im2latex
このモデルは、画像からLaTeX数式を生成するためのデータセットでファインチューニングされた基本的なVisionEncoderDecoderModelです。
✨ 主な機能
このモデルは画像からLaTeX数式を生成することができ、Swin Transformerをエンコーダ、GPT - 2をデコーダとして使用しています。
📦 インストール
このモデルはtransformers
ライブラリを使用して直接利用できます。以下のコードでモデルをロードできます。
from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image
model = VisionEncoderDecoderModel.from_pretrained("DGurgurov/im2latex")
tokenizer = AutoTokenizer.from_pretrained("DGurgurov/im2latex")
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")
💻 使用例
基本的な使用法
from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image
model = VisionEncoderDecoderModel.from_pretrained("DGurgurov/im2latex")
tokenizer = AutoTokenizer.from_pretrained("DGurgurov/im2latex")
feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-base-patch4-window7-224-in22k")
image = Image.open("path/to/your/image.png")
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print("生成されたLaTeX数式:", generated_texts[0])
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
エンコーダ |
Swin Transformer |
デコーダ |
GPT - 2 |
フレームワーク |
PyTorch |
DDP (Distributed Data Parallel) |
学習に使用 |
学習データ
データはOleehyO/latex-formulasから取得されました。データは学習、検証、テスト用に80:10:10に分割されました。分割は以下のように行われました。
dataset = load_dataset(OleehyO/latex-formulas, cleaned_formulas)
train_val_split = dataset["train"].train_test_split(test_size=0.2, seed=42)
train_ds = train_val_split["train"]
val_test_split = train_val_split["test"].train_test_split(test_size=0.5, seed=42)
val_ds = val_test_split["train"]
test_ds = val_test_split["test"]
評価指標
モデルはテストセットで評価され、以下の結果が得られました。
- テスト損失: 0.10
- テストBLEUスコア: 0.67
学習スクリプト
このモデルの学習スクリプトは以下のリポジトリで見つけることができます。GitHub
引用
- この研究でこのモデルを使用する場合は、以下の論文を引用してください。
@misc{gurgurov2024imagetolatexconvertermathematicalformulas,
title={Image-to-LaTeX Converter for Mathematical Formulas and Text},
author={Daniil Gurgurov and Aleksey Morshnev},
year={2024},
eprint={2408.04015},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2408.04015},
}
📄 ライセンス
このモデルは[MIT]ライセンスの下で提供されています。