🚀 将数学公式图像转换为LaTeX序列
本项目旨在解决将数学公式图像转换为LaTeX序列的问题,通过使用大规模数据集训练的端到端Transformer模型Sumen,显著提升了图像到LaTeX转换的性能。
📄 许可证
本项目采用Apache-2.0许可证。
✨ 主要特性
- 图像到文本处理:属于图像到文本的处理范畴,专注于将数学公式图像准确转换为LaTeX序列。
- 特定数据集支持:使用
hoang-quoc-trung/fusion-image-to-latex-datasets
数据集进行训练。
- 多领域应用:可用于图像转LaTeX、LaTeX OCR、印刷数学表达式识别和手写数学表达式识别等多个领域。
📦 安装指南
本项目的源代码可在此处获取。你可以按照以下步骤进行安装:
- 克隆项目仓库:
git clone https://github.com/hoang-quoc-trung/sumen.git
cd sumen
- 安装所需依赖:
pip install -r requirements.txt
💻 使用示例
基础用法
以下是一个使用本模型进行推理的示例代码:
import torch
import requests
from PIL import Image
from transformers import AutoProcessor, VisionEncoderDecoderModel
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = VisionEncoderDecoderModel.from_pretrained('hoang-quoc-trung/sumen-base').to(device)
processor = AutoProcessor.from_pretrained('hoang-quoc-trung/sumen-base')
task_prompt = processor.tokenizer.bos_token
decoder_input_ids = processor.tokenizer(
task_prompt,
add_special_tokens=False,
return_tensors="pt"
).input_ids
img_url = 'https://raw.githubusercontent.com/hoang-quoc-trung/sumen/main/assets/example_1.png'
image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
pixel_values = processor.image_processor(
image,
return_tensors="pt",
data_format="channels_first",
).pixel_values
with torch.no_grad():
outputs = model.generate(
pixel_values.to(device),
decoder_input_ids=decoder_input_ids.to(device),
max_length=model.decoder.config.max_length,
pad_token_id=processor.tokenizer.pad_token_id,
eos_token_id=processor.tokenizer.eos_token_id,
use_cache=True,
num_beams=4,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
return_dict_in_generate=True,
)
sequence = processor.tokenizer.batch_decode(outputs.sequences)[0]
sequence = sequence.replace(
processor.tokenizer.eos_token, ""
).replace(
processor.tokenizer.pad_token, ""
).replace(processor.tokenizer.bos_token,"")
print(sequence)
高级用法
在实际应用中,你可以根据具体需求调整模型的参数,如max_length
、num_beams
等,以获得更好的性能。同时,你也可以使用自己的图像数据集进行推理。
📚 详细文档
性能展示

项目信息
属性 |
详情 |
模型类型 |
图像到文本处理模型 |
训练数据 |
hoang-quoc-trung/fusion-image-to-latex-datasets |
标签 |
img2latex、latex ocr、Printed Mathematical Expression Recognition、Handwritten Mathematical Expression Recognition |