🚀 阿拉伯大诺加特模型(Arabic Large Nougat)
阿拉伯大诺加特模型是一款专门为阿拉伯语书籍设计的端到端结构化光学字符识别(OCR)系统,能够高效地将阿拉伯语书籍页面图像转换为结构化文本。
🚀 快速开始
在线演示
你可以通过以下链接体验模型的在线演示:点击进入
本地使用
若要在本地使用该模型,请确保更新 transformers
库:
pip install -U transformers
以下是使用该模型的示例代码:
from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-large-nougat")
model = VisionEncoderDecoderModel.from_pretrained(
"MohamedRashad/arabic-large-nougat",
torch_dtype=torch.bfloat16,
attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"},
)
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
def predict(img_path):
image = Image.open(img_path)
pixel_values = (
processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)
)
outputs = model.generate(
pixel_values.to(device),
repetition_penalty=1.5,
min_length=1,
max_new_tokens=context_length,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
)
page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
return page_sequence
print(predict("path/to/page_image.jpg"))
✨ 主要特性
- 专为阿拉伯语设计:该模型是专门为阿拉伯语书籍的OCR任务而开发的,能够更好地处理阿拉伯语的字符和语法结构。
- 端到端结构化识别:可以直接将阿拉伯语书籍页面图像转换为结构化的文本,方便后续的处理和使用。
- 基于新分词器训练:模型基于新的分词器 riotu-lab/Aranizer-PBE-86k 进行训练,提高了识别的准确性。
📚 详细文档
模型描述
阿拉伯大诺加特OCR是一个专门为阿拉伯语设计的端到端结构化光学字符识别(OCR)系统。该模型基于新的分词器 riotu-lab/Aranizer-PBE-86k 和基础的诺加特架构从头开始训练,使用了 MohamedRashad/arabic-img2md 数据集进行训练。
相关链接
模型局限性
- 文本幻觉:由于OCR任务的固有复杂性,模型偶尔可能会生成重复或错误的文本。
- 错误的图像路径:模型有时会输出与输入无关的图像路径,表明存在偶尔的混淆。
- 上下文长度限制:模型的最大上下文长度为2048个标记,对于较长的书籍页面,可能会导致转录不完整。
预期用途
该模型适用于将阿拉伯语书籍页面图像转换为结构化文本的任务,特别是在需要Markdown格式的情况下。它适用于阿拉伯文学数字化领域的应用,以及从印刷材料中提取文本的场景。
伦理考虑
在使用该模型时,用户需要注意模型的局限性,特别是在对OCR结果准确性要求较高的情况下。建议用户对模型的输出进行验证和审查,尤其是在对精度要求极高的场景中。
模型详情
属性 |
详情 |
开发者 |
Mohamed Rashad |
模型类型 |
VisionEncoderDecoderModel |
语言 |
阿拉伯语和英语 |
许可证 |
GPL 3.0 |
致谢
如果您使用或基于阿拉伯大诺加特OCR进行开发,请感谢模型开发者和开源社区的贡献。此外,在重新分发或修改模型的任何版本时,请务必包含GPL 3.0许可证的副本。通过选择GPL 3.0许可证,您可以促进开源原则,并确保模型的好处能够与更广泛的社区共享。
引用
如果您发现该模型有用,请引用相应的研究论文:
@misc{rashad2024arabicnougatfinetuningvisiontransformers,
title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction},
author={Mohamed Rashad},
year={2024},
eprint={2411.17835},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.17835},
}
免责声明
阿拉伯大诺加特OCR是一个“按原样”提供的工具,开发者不保证其适用于特定任务。建议用户根据自己的特定用例和需求,对模型的输出进行全面评估。