免费开源！arabic-large-nougat将阿拉伯语书籍图像转为结构化文本

首页

Arabic Large Nougat

由 MohamedRashad 开发

专为阿拉伯语设计的端到端结构化光学字符识别系统，可将书籍页面图像转换为结构化文本（Markdown格式）

图像生成文本

Transformers

支持多种语言开源协议:Gpl-3.0 #阿拉伯语OCR #书籍数字化 #端到端识别

下载量 537

发布时间 : 10/18/2024

模型简介

该模型基于新型分词器从头训练，采用基础Nougat架构，适用于阿拉伯文献数字化和印刷材料文本提取等领域。

模型特点

阿拉伯语专用OCR

专门针对阿拉伯语文本优化的光学字符识别系统

结构化输出

能够生成Markdown格式的结构化文本输出

端到端解决方案

直接从图像到文本的完整处理流程，无需中间步骤

书籍处理优化

特别适合处理阿拉伯语书籍页面

模型能力

阿拉伯语文本识别

英语文本识别

书籍页面处理

Markdown格式生成

使用案例

文献数字化

阿拉伯古籍数字化

将印刷版阿拉伯古籍转换为可搜索的数字化文本

保留原始文本结构和格式

教育

教材内容提取

从阿拉伯语教材中提取文本内容用于电子化学习

结构化输出便于后续处理

🚀 阿拉伯大诺加特模型（Arabic Large Nougat）

阿拉伯大诺加特模型是一款专门为阿拉伯语书籍设计的端到端结构化光学字符识别（OCR）系统，能够高效地将阿拉伯语书籍页面图像转换为结构化文本。

🚀 快速开始

在线演示

你可以通过以下链接体验模型的在线演示：点击进入

本地使用

若要在本地使用该模型，请确保更新 transformers 库：

pip install -U transformers

以下是使用该模型的示例代码：

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# 加载模型和处理器
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-large-nougat")
model = VisionEncoderDecoderModel.from_pretrained(
    "MohamedRashad/arabic-large-nougat",
    torch_dtype=torch.bfloat16,
    attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"},
)

# 获取模型的最大上下文长度和权重的数据类型
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype

# 如果有可用的GPU，将模型移动到GPU上
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)


def predict(img_path):
    # 为模型准备PDF图像
    image = Image.open(img_path)
    pixel_values = (
        processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)
    )

    # 生成转录结果
    outputs = model.generate(
        pixel_values.to(device),
        repetition_penalty=1.5,
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return page_sequence


print(predict("path/to/page_image.jpg"))

✨ 主要特性

专为阿拉伯语设计：该模型是专门为阿拉伯语书籍的OCR任务而开发的，能够更好地处理阿拉伯语的字符和语法结构。
端到端结构化识别：可以直接将阿拉伯语书籍页面图像转换为结构化的文本，方便后续的处理和使用。
基于新分词器训练：模型基于新的分词器 riotu-lab/Aranizer-PBE-86k 进行训练，提高了识别的准确性。

📚 详细文档

模型描述

阿拉伯大诺加特OCR是一个专门为阿拉伯语设计的端到端结构化光学字符识别（OCR）系统。该模型基于新的分词器 riotu-lab/Aranizer-PBE-86k 和基础的诺加特架构从头开始训练，使用了 MohamedRashad/arabic-img2md 数据集进行训练。

模型局限性

文本幻觉：由于OCR任务的固有复杂性，模型偶尔可能会生成重复或错误的文本。
错误的图像路径：模型有时会输出与输入无关的图像路径，表明存在偶尔的混淆。
上下文长度限制：模型的最大上下文长度为2048个标记，对于较长的书籍页面，可能会导致转录不完整。

预期用途

该模型适用于将阿拉伯语书籍页面图像转换为结构化文本的任务，特别是在需要Markdown格式的情况下。它适用于阿拉伯文学数字化领域的应用，以及从印刷材料中提取文本的场景。

伦理考虑

在使用该模型时，用户需要注意模型的局限性，特别是在对OCR结果准确性要求较高的情况下。建议用户对模型的输出进行验证和审查，尤其是在对精度要求极高的场景中。

模型详情

属性	详情
开发者	Mohamed Rashad
模型类型	VisionEncoderDecoderModel
语言	阿拉伯语和英语
许可证	GPL 3.0

致谢

如果您使用或基于阿拉伯大诺加特OCR进行开发，请感谢模型开发者和开源社区的贡献。此外，在重新分发或修改模型的任何版本时，请务必包含GPL 3.0许可证的副本。通过选择GPL 3.0许可证，您可以促进开源原则，并确保模型的好处能够与更广泛的社区共享。

引用

如果您发现该模型有用，请引用相应的研究论文：

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}