im2latex_base開源模型 - 輕鬆將圖像轉換為LaTeX公式，免費部署超實用

首頁

Im2latex Base

由Matthijs0開發

基於圖像生成LaTeX公式的VisionEncoderDecoder模型，使用Swin Transformer編碼器和GPT-2解碼器架構

圖像生成文本

Transformers

#圖像轉LaTeX #公式識別 #Swin-GPT2架構

下載量 56

發布時間 : 1/14/2025

模型概述

該模型能夠將包含數學公式的圖像轉換為LaTeX代碼，適用於學術文檔、技術報告等場景的公式數字化處理

模型特點

混合架構設計

結合視覺編碼器(Swin Transformer)和文本解碼器(GPT-2)的優勢，有效處理圖像到文本的轉換任務

高精度公式識別

在測試集上達到0.69的BLEU分數，能夠準確識別和轉換複雜的數學公式

可擴展性

支持後續對手寫公式數據進行微調，提升模型在特定場景下的表現

模型能力

圖像識別

數學公式轉換

LaTeX代碼生成

使用案例

學術研究

論文公式數字化

將紙質或PDF文檔中的數學公式轉換為可編輯的LaTeX代碼

提高學術寫作效率，便於公式複用和修改

教育技術

在線學習平臺

幫助學生和教師快速輸入複雜的數學公式

簡化在線數學內容的創作流程

🚀 im2latex_model

本模型是一個基於特定數據集訓練的視覺編碼器 - 解碼器模型，用於從圖像中生成 LaTeX 公式。該模型是對論文 https://arxiv.org/html/2408.04015v1 復現項目的一部分。需要注意的是，論文中該模型在訓練後會在手寫數據上進行微調，而此為微調前的模型。

✨ 主要特性

模型類型：視覺編碼器 - 解碼器模型，能夠將圖像轉換為 LaTeX 公式。
復現論文：復現指定論文的模型，為相關研究和應用提供參考。

📦 安裝指南

暫未提供安裝步驟相關內容。

💻 使用示例

基礎用法

from transformers import VisionEncoderDecoderModel, AutoTokenizer, AutoFeatureExtractor
import torch
from PIL import Image

# Load model, tokenizer, and feature extractor
model = VisionEncoderDecoderModel.from_pretrained("your-username/your-model-name")
tokenizer = AutoTokenizer.from_pretrained("your-username/your-model-name")
feature_extractor = AutoFeatureExtractor.from_pretrained("your-username/your-model-name")

# Prepare an image
image = Image.open("path/to/your/image.png")
pixel_values = feature_extractor(images=image, return_tensors="pt").pixel_values

# Generate LaTeX formula
generated_ids = model.generate(pixel_values)
generated_texts = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)

print("Generated LaTeX formula:", generated_texts[0])

📚 詳細文檔

模型詳情

屬性	詳情
編碼器	Swin Transformer
解碼器	GPT - 2
框架	PyTorch

訓練數據

數據來源於 [OleehyO/latex - formulas](https://huggingface.co/datasets/OleehyO/latex - formulas)，並按照 80:10:10 的比例劃分為訓練集、驗證集和測試集，劃分代碼如下：

dataset = load_dataset(OleehyO/latex-formulas, cleaned_formulas)
train_val_split = dataset["train"].train_test_split(test_size=0.2, seed=42)
train_ds = train_val_split["train"]
val_test_split = train_val_split["test"].train_test_split(test_size=0.5, seed=42)
val_ds = val_test_split["train"]
test_ds = val_test_split["test"]