🚀 阿拉伯大諾加特模型(Arabic Large Nougat)
阿拉伯大諾加特模型是一款專門為阿拉伯語書籍設計的端到端結構化光學字符識別(OCR)系統,能夠高效地將阿拉伯語書籍頁面圖像轉換為結構化文本。
🚀 快速開始
在線演示
你可以通過以下鏈接體驗模型的在線演示:點擊進入
本地使用
若要在本地使用該模型,請確保更新 transformers
庫:
pip install -U transformers
以下是使用該模型的示例代碼:
from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-large-nougat")
model = VisionEncoderDecoderModel.from_pretrained(
"MohamedRashad/arabic-large-nougat",
torch_dtype=torch.bfloat16,
attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"},
)
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
def predict(img_path):
image = Image.open(img_path)
pixel_values = (
processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)
)
outputs = model.generate(
pixel_values.to(device),
repetition_penalty=1.5,
min_length=1,
max_new_tokens=context_length,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
)
page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
return page_sequence
print(predict("path/to/page_image.jpg"))
✨ 主要特性
- 專為阿拉伯語設計:該模型是專門為阿拉伯語書籍的OCR任務而開發的,能夠更好地處理阿拉伯語的字符和語法結構。
- 端到端結構化識別:可以直接將阿拉伯語書籍頁面圖像轉換為結構化的文本,方便後續的處理和使用。
- 基於新分詞器訓練:模型基於新的分詞器 riotu-lab/Aranizer-PBE-86k 進行訓練,提高了識別的準確性。
📚 詳細文檔
模型描述
阿拉伯大諾加特OCR是一個專門為阿拉伯語設計的端到端結構化光學字符識別(OCR)系統。該模型基於新的分詞器 riotu-lab/Aranizer-PBE-86k 和基礎的諾加特架構從頭開始訓練,使用了 MohamedRashad/arabic-img2md 數據集進行訓練。
相關鏈接
模型侷限性
- 文本幻覺:由於OCR任務的固有複雜性,模型偶爾可能會生成重複或錯誤的文本。
- 錯誤的圖像路徑:模型有時會輸出與輸入無關的圖像路徑,表明存在偶爾的混淆。
- 上下文長度限制:模型的最大上下文長度為2048個標記,對於較長的書籍頁面,可能會導致轉錄不完整。
預期用途
該模型適用於將阿拉伯語書籍頁面圖像轉換為結構化文本的任務,特別是在需要Markdown格式的情況下。它適用於阿拉伯文學數字化領域的應用,以及從印刷材料中提取文本的場景。
倫理考慮
在使用該模型時,用戶需要注意模型的侷限性,特別是在對OCR結果準確性要求較高的情況下。建議用戶對模型的輸出進行驗證和審查,尤其是在對精度要求極高的場景中。
模型詳情
屬性 |
詳情 |
開發者 |
Mohamed Rashad |
模型類型 |
VisionEncoderDecoderModel |
語言 |
阿拉伯語和英語 |
許可證 |
GPL 3.0 |
致謝
如果您使用或基於阿拉伯大諾加特OCR進行開發,請感謝模型開發者和開源社區的貢獻。此外,在重新分發或修改模型的任何版本時,請務必包含GPL 3.0許可證的副本。通過選擇GPL 3.0許可證,您可以促進開源原則,並確保模型的好處能夠與更廣泛的社區共享。
引用
如果您發現該模型有用,請引用相應的研究論文:
@misc{rashad2024arabicnougatfinetuningvisiontransformers,
title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction},
author={Mohamed Rashad},
year={2024},
eprint={2411.17835},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.17835},
}
免責聲明
阿拉伯大諾加特OCR是一個“按原樣”提供的工具,開發者不保證其適用於特定任務。建議用戶根據自己的特定用例和需求,對模型的輸出進行全面評估。