im2latex_baseオープンソースモデル - 画像を簡単にLaTeX数式に変換し、無料でデプロイできる超実用的なツール

ホーム

Im2latex Base

Matthijs0によって開発

画像からLaTeX数式を生成するVisionEncoderDecoderモデル、Swin TransformerエンコーダーとGPT-2デコーダーアーキテクチャを使用

画像生成テキスト

Transformers

#画像からLaTeXへ #数式認識 #Swin-GPT2アーキテクチャ

ダウンロード数 56

リリース時間 : 1/14/2025

モデル概要

このモデルは数学式を含む画像をLaTeXコードに変換でき、学術文書や技術レポートなどの数式デジタル処理に適しています

モデル特徴

ハイブリッドアーキテクチャ設計

視覚エンコーダー(Swin Transformer)とテキストデコーダー(GPT-2)の利点を組み合わせ、画像からテキストへの変換タスクを効果的に処理

高精度数式認識

テストセットで0.69のBLEUスコアを達成し、複雑な数学式を正確に認識・変換可能

拡張性

手書き数式データのファインチューニングをサポートし、特定シナリオでのモデル性能を向上

モデル能力

画像認識

数学式変換

LaTeXコード生成

使用事例

学術研究

論文数式デジタル化

紙媒体やPDF文書中の数学式を編集可能なLaTeXコードに変換

学術執筆効率向上、数式の再利用と修正が容易に

教育技術

オンライン学習プラットフォーム

学生や教師が複雑な数学式を迅速に入力できるよう支援

オンライン数学コンテンツ作成プロセスの簡素化

🚀 im2latex_model

このモデルは、画像からLaTeX数式を生成するためのデータセットで学習されたVisionEncoderDecoderModelです。これは、以下の論文を再現するプロジェクトの一部です：https://arxiv.org/html/2408.04015v1 。注意: 論文では、モデルは学習後に手書きデータで微調整されています。これは微調整前のモデルです。

🚀 クイックスタート

このim2latex_modelは、画像からLaTeX数式を生成するために訓練されたモデルです。以下のセクションでは、モデルの詳細、学習データ、評価指標、使用方法、学習スクリプトについて説明します。

✨ 主な機能

画像からLaTeX数式を生成することができます。
Swin Transformerをエンコーダー、GPT - 2をデコーダーとして使用しています。
PyTorchフレームワークを使用しています。

📚 ドキュメント

モデル詳細

Property	Details
エンコーダー	Swin Transformer
デコーダー	GPT - 2
フレームワーク	PyTorch

学習データ

データは[OleehyO/latex - formulas](https://huggingface.co/datasets/OleehyO/latex - formulas)から取得されました。データは訓練、検証、テスト用に80:10:10に分割されました。分割は以下のように行われました。

dataset = load_dataset(OleehyO/latex-formulas, cleaned_formulas)
train_val_split = dataset["train"].train_test_split(test_size=0.2, seed=42)
train_ds = train_val_split["train"]
val_test_split = train_val_split["test"].train_test_split(test_size=0.5, seed=42)
val_ds = val_test_split["train"]
test_ds = val_test_split["test"]

評価指標

モデルはテストセットで評価され、以下の結果が得られました。

Property	Details
テスト損失	0.09
テストBLEUスコア	0.69

💻 使用例

基本的な使用法

transformersライブラリを使用して、モデルを直接利用することができます。

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image

# モデル、トークナイザー、特徴抽出器を読み込む
model = VisionEncoderDecoderModel.from_pretrained("your-username/your-model-name")
tokenizer = AutoTokenizer.from_pretrained("your-username/your-model-name")
feature_extractor = AutoFeatureExtractor.from_pretrained("your-username/your-model-name")

# 画像を準備する
image = Image.open("path/to/your/image.png")
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

# LaTeX数式を生成する
generated_ids = model.generate(pixel_values)
generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

print("生成されたLaTeX数式:", generated_texts[0])