pix2text-mfr-quantized开源模型 - 免费将数学公式图片转换为LaTeX文本

首页

Pix2text Mfr Quantized

由 Brian314 开发

Pix2Text的数学公式识别(MFR)模型，基于TrOCR架构训练，可将数学公式图片转换为LaTeX文本表示。

文字识别

Transformers

开源协议:MIT #数学公式识别 #LaTeX转换 #印刷体手写体兼容

下载量 37

发布时间 : 6/18/2024

模型简介

该模型专注于数学公式识别任务，能够处理印刷体和手写体的数学公式图片，并将其转换为LaTeX格式的文本表示。

模型特点

高精度公式识别

在测试数据集上表现优于同类开源模型，字符错误率(CER)较低

支持多种公式类型

能够识别从简单公式到复杂矩阵等多种数学表达式

印刷体与手写体兼容

可处理标准印刷体公式和手写体公式图片

模型能力

数学公式图片转LaTeX文本

印刷体公式识别

手写体公式识别

复杂数学表达式处理

使用案例

教育

数学作业数字化

将学生手写的数学作业转换为可编辑的LaTeX格式

便于教师批改和学生修改

在线学习平台

为在线教育平台提供公式识别功能

增强平台数学内容处理能力

学术研究

论文公式提取

从学术论文中提取数学公式

便于文献检索和分析

🚀 模型卡片：Pix2Text-MFR

Pix2Text-MFR 是一款数学公式识别模型，它基于 Pix2Text (P2T) 开发，能够将数学公式图像转换为 LaTeX 文本表示，为数学公式的数字化处理提供了高效解决方案。

🚀 快速开始

使用示例

方法一：直接使用模型

这种方法无需安装 pix2text，但只能识别纯公式图片。

#! pip install transformers>=4.37.0 pillow optimum[onnxruntime]
from PIL import Image
from transformers import TrOCRProcessor
from optimum.onnxruntime import ORTModelForVision2Seq

processor = TrOCRProcessor.from_pretrained('breezedeus/pix2text-mfr')
model = ORTModelForVision2Seq.from_pretrained('breezedeus/pix2text-mfr', use_cache=False)

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
images = [Image.open(fp).convert('RGB') for fp in image_fps]
pixel_values = processor(images=images, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(f'generated_ids: {generated_ids}, \ngenerated text: {generated_text}')

方法二：使用 Pix2Text

这种方法需要安装 pix2text，借助 Pix2Text 中的数学公式检测模型（MFD），它不仅可以识别纯公式图片，还可以识别包含文本的混合图片。

$ pip install pix2text>=1.1

#! pip install pix2text>=1.1

from pix2text import Pix2Text, merge_line_texts

image_fps = [
    'examples/example.jpg',
    'examples/42.png',
    'examples/0000186.png',
]
p2t = Pix2Text.from_config()
outs = p2t.recognize_formula(image_fps)  # recognize pure formula images

outs2 = p2t.recognize('examples/mixed.jpg', file_type='text_formula', return_text=True, save_analysis_res='mixed-out.jpg')  # recognize mixed images
print(outs2)

方法三：使用 Notebook

可以通过这个 Notebook 尝试使用 Pix2Text：https://github.com/breezedeus/Pix2Text/blob/main/pix2text_v1_1.ipynb。

✨ 主要特性

基于微软的 TrOCR 架构，以其为初始值并利用数学公式图片数据集进行了重新训练。
能够将数学公式图片转换为 LaTeX 文本表示。
支持两种使用方式，可根据需求选择直接使用模型或借助 Pix2Text 进行识别。

📦 安装指南

方法一所需依赖

pip install transformers>=4.37.0 pillow optimum[onnxruntime]

方法二所需依赖

pip install pix2text>=1.1

💻 使用示例

基础用法

上述方法一和方法二的代码示例展示了如何使用该模型进行数学公式图片的识别。

高级用法

可以通过调整模型的参数或结合其他工具，进一步优化识别效果。例如，在使用 Pix2Text 时，可以根据具体需求调整 recognize 方法的参数。

📚 详细文档

Pix2Text V1.0 新版发布：最好的开源公式识别模型 | Breezedeus.com
Pix2Text (P2T) Github: breezedeus/pix2text
Pix2Text 在线免费服务: p2t.breezedeus.com
Pix2Text 在线文档: Docs
Pix2Text 更多信息: breezedeus.com/pix2text
Pix2Text 交流社区: https://discord.gg/GgD87WM8Tf

🔧 技术细节

此 MFR 模型使用了微软的 TrOCR 架构，以其为初始值并利用数学公式图片数据集进行了重新训练。获得的 MFR 模型可用于把数学公式图片转换为 LaTeX 文本表示。更多细节请见：Pix2Text V1.0 新版发布：最好的开源公式识别模型 | Breezedeus.com。

📄 许可证

本项目采用 MIT 许可证。

🔍 模型使用示例图片

印刷体公式图片

printed-formula examples

手写体公式图片

handwritten-formula examples

📊 性能表现

测试数据对应的原始图片来源于 Pix2Text 网页版用户上传的真实数据。经过处理后得到的测试数据集包括了 485 张图片，这些图片包含了各种不同长度和复杂度的数学公式。

以下是各个模型在此测试数据集上的 CER（字错误率，越小越好）。对真实标注结果，以及每个模型的输出都首先进行了标准化，以保证不会因为空格等无关因素影响测试结果。对 Texify 的识别结果会首先去掉公式的首尾符号$或$$。

CER Comparison Among Different MFR Models

由上图可见，Pix2Text V1.0 MFR 开源免费版模型已经大大优于之前版本的付费模型。而相比 V1.0 MFR 开源免费模型，Pix2Text V1.0 MFR 付费模型精度得到了进一步的提升。

⚠️ 重要提示

Texify 更适用于识别标准排版的图片，它对包含单字母的图片识别较差。这也是 Texify 在此测试数据集上效果比 Latex-OCR 还差的主要原因。

💬 反馈

欢迎联系作者 Breezedeus ，提出关于模型的问题或建议。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库