🚀 將數學公式圖像轉換為LaTeX序列
本項目旨在解決將數學公式圖像轉換為LaTeX序列的問題,通過使用大規模數據集訓練的端到端Transformer模型Sumen,顯著提升了圖像到LaTeX轉換的性能。
📄 許可證
本項目採用Apache-2.0許可證。
✨ 主要特性
- 圖像到文本處理:屬於圖像到文本的處理範疇,專注於將數學公式圖像準確轉換為LaTeX序列。
- 特定數據集支持:使用
hoang-quoc-trung/fusion-image-to-latex-datasets
數據集進行訓練。
- 多領域應用:可用於圖像轉LaTeX、LaTeX OCR、印刷數學表達式識別和手寫數學表達式識別等多個領域。
📦 安裝指南
本項目的源代碼可在此處獲取。你可以按照以下步驟進行安裝:
- 克隆項目倉庫:
git clone https://github.com/hoang-quoc-trung/sumen.git
cd sumen
- 安裝所需依賴:
pip install -r requirements.txt
💻 使用示例
基礎用法
以下是一個使用本模型進行推理的示例代碼:
import torch
import requests
from PIL import Image
from transformers import AutoProcessor, VisionEncoderDecoderModel
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = VisionEncoderDecoderModel.from_pretrained('hoang-quoc-trung/sumen-base').to(device)
processor = AutoProcessor.from_pretrained('hoang-quoc-trung/sumen-base')
task_prompt = processor.tokenizer.bos_token
decoder_input_ids = processor.tokenizer(
task_prompt,
add_special_tokens=False,
return_tensors="pt"
).input_ids
img_url = 'https://raw.githubusercontent.com/hoang-quoc-trung/sumen/main/assets/example_1.png'
image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
pixel_values = processor.image_processor(
image,
return_tensors="pt",
data_format="channels_first",
).pixel_values
with torch.no_grad():
outputs = model.generate(
pixel_values.to(device),
decoder_input_ids=decoder_input_ids.to(device),
max_length=model.decoder.config.max_length,
pad_token_id=processor.tokenizer.pad_token_id,
eos_token_id=processor.tokenizer.eos_token_id,
use_cache=True,
num_beams=4,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
return_dict_in_generate=True,
)
sequence = processor.tokenizer.batch_decode(outputs.sequences)[0]
sequence = sequence.replace(
processor.tokenizer.eos_token, ""
).replace(
processor.tokenizer.pad_token, ""
).replace(processor.tokenizer.bos_token,"")
print(sequence)
高級用法
在實際應用中,你可以根據具體需求調整模型的參數,如max_length
、num_beams
等,以獲得更好的性能。同時,你也可以使用自己的圖像數據集進行推理。
📚 詳細文檔
性能展示

項目信息
屬性 |
詳情 |
模型類型 |
圖像到文本處理模型 |
訓練數據 |
hoang-quoc-trung/fusion-image-to-latex-datasets |
標籤 |
img2latex、latex ocr、Printed Mathematical Expression Recognition、Handwritten Mathematical Expression Recognition |