arabic - base - nougat免费OCR系统 - 专为阿拉伯语设计的端到端文档识别

首页

Arabic Base Nougat

由 MohamedRashad 开发

专为阿拉伯语设计的端到端结构化光学字符识别（OCR）系统，基于facebook/nougat-base架构微调

图像生成文本

Transformers

支持多种语言开源协议:Gpl-3.0 #阿拉伯语OCR #书籍数字化 #端到端结构化

下载量 130

发布时间 : 10/13/2024

模型简介

该模型是一个端到端的结构化阿拉伯语书籍光学字符识别（OCR）系统，能够将阿拉伯语书籍页面图像转换为结构化文本，特别适用于需要Markdown格式的场景。

模型特点

阿拉伯语OCR优化

专门针对阿拉伯语文本进行优化，能够准确识别阿拉伯语书籍页面中的复杂排版和字符

结构化输出

支持生成Markdown格式的结构化文本输出，保留原始文档的格式信息

端到端处理

直接从图像输入到文本输出，无需中间处理步骤

模型能力

阿拉伯语文本识别

英语文本识别

书籍页面图像处理

Markdown格式生成

使用案例

文献数字化

阿拉伯古籍数字化

将印刷版阿拉伯古籍转换为可编辑的数字文本

保留原始排版和格式的结构化文本

教育

教材内容提取

从阿拉伯语教材扫描件中提取教学内容

可编辑的教材文本，便于制作电子教材

🚀 阿拉伯基础Nougat模型

阿拉伯基础Nougat是一个专为阿拉伯语书籍设计的端到端结构化光学字符识别（OCR）系统，能够将阿拉伯书籍页面图像转换为结构化文本。

🚀 快速开始

在线演示

你可以通过这个链接进行在线体验：Demo

本地使用

在本地使用前，请确保更新transformers库：

pip install -U transformers

以下是使用该模型的示例代码：

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# 加载模型和处理器
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-base-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-base-nougat", torch_dtype=torch.bfloat16, attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"})

# 获取模型的最大上下文长度和权重的数据类型
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype

# 如果GPU可用，将模型移动到GPU上
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

def predict(img_path):
    # 为模型准备PDF图像
    image = Image.open(img_path)
    pixel_values = processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)

    # 生成转录结果
    outputs = model.generate(
        pixel_values.to(device),
        repetition_penalty=1.5,
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
    return page_sequence

print(predict("path/to/page_image.jpg"))

✨ 主要特性

阿拉伯基础Nougat模型基于facebook/nougat-base架构，并使用MohamedRashad/arabic-img2md数据集进行微调。它可以将阿拉伯书籍页面图像转换为结构化文本，尤其适用于需要Markdown格式的场景。

📚 详细文档

偏差、风险和局限性

文本幻觉：由于OCR任务的固有复杂性，模型偶尔可能会生成重复或错误的文本。
错误的图像路径：模型有时会输出与输入无关的图像路径，表明存在偶尔的混淆。
上下文长度限制：模型的最大上下文长度为2048个标记，对于较长的书籍页面，可能会导致转录不完整。

预期用途

该模型旨在将阿拉伯书籍页面的图像转换为结构化文本，特别是需要Markdown格式时。它适用于阿拉伯文学数字化领域的应用，以及从印刷材料中提取文本的任务。

伦理考虑

在需要精确OCR结果的情况下，用户必须意识到模型的局限性。建议用户验证和审查输出，特别是在精度至关重要的场景中。

模型详情

属性	详情
开发者	Mohamed Rashad
模型类型	VisionEncoderDecoderModel
支持语言	阿拉伯语和英语
许可证	GPL 3.0
微调基础模型	nougat-base

致谢

如果使用或基于阿拉伯基础Nougat OCR进行开发，请感谢模型开发者和开源社区的贡献。此外，在重新分发或修改模型的任何版本时，请务必包含GPL 3.0许可证的副本。通过选择GPL 3.0许可证，你促进了开源原则，并确保模型的益处能够与更广泛的社区共享。

引用

如果你发现该模型有用，请引用相应的研究论文：

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}