🚀 阿拉伯基礎Nougat模型
阿拉伯基礎Nougat是一個專為阿拉伯語書籍設計的端到端結構化光學字符識別(OCR)系統,能夠將阿拉伯書籍頁面圖像轉換為結構化文本。
🚀 快速開始
在線演示
你可以通過這個鏈接進行在線體驗:Demo
本地使用
在本地使用前,請確保更新transformers
庫:
pip install -U transformers
以下是使用該模型的示例代碼:
from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-base-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-base-nougat", torch_dtype=torch.bfloat16, attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"})
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
def predict(img_path):
image = Image.open(img_path)
pixel_values = processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)
outputs = model.generate(
pixel_values.to(device),
repetition_penalty=1.5,
min_length=1,
max_new_tokens=context_length,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
)
page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
return page_sequence
print(predict("path/to/page_image.jpg"))
✨ 主要特性
阿拉伯基礎Nougat模型基於facebook/nougat-base架構,並使用MohamedRashad/arabic-img2md數據集進行微調。它可以將阿拉伯書籍頁面圖像轉換為結構化文本,尤其適用於需要Markdown格式的場景。
📚 詳細文檔
偏差、風險和侷限性
- 文本幻覺:由於OCR任務的固有複雜性,模型偶爾可能會生成重複或錯誤的文本。
- 錯誤的圖像路徑:模型有時會輸出與輸入無關的圖像路徑,表明存在偶爾的混淆。
- 上下文長度限制:模型的最大上下文長度為2048個標記,對於較長的書籍頁面,可能會導致轉錄不完整。
預期用途
該模型旨在將阿拉伯書籍頁面的圖像轉換為結構化文本,特別是需要Markdown格式時。它適用於阿拉伯文學數字化領域的應用,以及從印刷材料中提取文本的任務。
倫理考慮
在需要精確OCR結果的情況下,用戶必須意識到模型的侷限性。建議用戶驗證和審查輸出,特別是在精度至關重要的場景中。
模型詳情
屬性 |
詳情 |
開發者 |
Mohamed Rashad |
模型類型 |
VisionEncoderDecoderModel |
支持語言 |
阿拉伯語和英語 |
許可證 |
GPL 3.0 |
微調基礎模型 |
nougat-base |
致謝
如果使用或基於阿拉伯基礎Nougat OCR進行開發,請感謝模型開發者和開源社區的貢獻。此外,在重新分發或修改模型的任何版本時,請務必包含GPL 3.0許可證的副本。通過選擇GPL 3.0許可證,你促進了開源原則,並確保模型的益處能夠與更廣泛的社區共享。
引用
如果你發現該模型有用,請引用相應的研究論文:
@misc{rashad2024arabicnougatfinetuningvisiontransformers,
title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction},
author={Mohamed Rashad},
year={2024},
eprint={2411.17835},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.17835},
}
免責聲明
阿拉伯基礎Nougat OCR是按“原樣”提供的工具,開發者不保證其適用於特定任務。建議用戶根據自己的特定用例和需求,徹底評估模型的輸出。
項目鏈接
