🚀 阿拉伯語小型Nougat模型
阿拉伯語小型Nougat是一款專為阿拉伯語書籍設計的端到端結構化光學字符識別(OCR)系統,能夠高效地將阿拉伯語書籍頁面圖像轉換為結構化文本。
🚀 快速開始
在線演示
你可以通過以下鏈接體驗模型的在線演示:Demo
本地使用
使用以下代碼在本地啟動模型:
from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-small-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-small-nougat")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
context_length = 2048
def predict(img_path):
image = Image.open(img_path)
pixel_values = processor(image, return_tensors="pt").pixel_values
outputs = model.generate(
pixel_values.to(device),
min_length=1,
max_new_tokens=context_length,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
)
page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
return page_sequence
print(predict("path/to/page_image.jpg"))
✨ 主要特性
- 針對性優化:專門為阿拉伯語設計,能夠更好地處理阿拉伯語的字符和語法結構。
- 端到端處理:直接將圖像轉換為結構化文本,無需複雜的預處理和後處理步驟。
- 多語言支持:支持阿拉伯語和英語兩種語言。
📚 詳細文檔
模型描述
[**Github**](https://github.com/MohamedAliRashad/arabic-nougat) 🤗 [**Hugging Face**](https://huggingface.co/collections/MohamedRashad/arabic-nougat-673a3f540bd92904c9b92a8e) 📝 [**Paper**](https://arxiv.org/abs/2411.17835) 🗂️ [**Data**](https://huggingface.co/datasets/MohamedRashad/arabic-img2md) 📽️ [**Demo**](https://huggingface.co/spaces/MohamedRashad/Arabic-Nougat)
阿拉伯語小型Nougat OCR是一個專門為阿拉伯語設計的端到端結構化光學字符識別(OCR)系統。該模型基於facebook/nougat-small架構,並使用Khatt數據集以及為此目的創建的自定義數據集進行了微調。
模型使用場景
阿拉伯語小型Nougat OCR適用於將阿拉伯語書籍頁面圖像轉換為結構化文本的任務,特別是需要Markdown格式的情況。它適用於阿拉伯文學數字化領域的應用,有助於從印刷材料中提取文本。
模型侷限性
- 文本幻覺:由於OCR任務的固有複雜性,模型偶爾會生成重複或錯誤的文本。
- 錯誤的圖像路徑:模型有時會輸出與輸入無關的圖像路徑,表明存在偶爾的混淆。
- 上下文長度限制:模型的最大上下文長度為2048個標記,對於較長的書籍頁面,可能會導致轉錄不完整。
倫理考慮
在使用模型時,特別是在需要準確OCR結果的情況下,必須意識到模型的侷限性。建議用戶驗證和審查輸出,特別是在精度至關重要的場景中。
🔧 技術細節
模型詳情
屬性 |
詳情 |
開發者 |
Mohamed Rashad |
模型類型 |
VisionEncoderDecoderModel |
語言(NLP) |
阿拉伯語 & 英語 |
許可證 |
GPL 3.0 |
微調基礎模型 |
nougat-small |
致謝
如果你使用或基於阿拉伯語小型Nougat OCR進行開發,請感謝模型開發者和開源社區的貢獻。此外,在重新分發或修改模型的任何版本時,請務必包含GPL 3.0許可證的副本。
引用
如果你發現此模型有用,請考慮引用原始的facebook/nougat-small模型以及用於微調的數據集,包括Khatt數據集和自定義數據集的任何詳細信息。
@misc{rashad2024arabicnougatfinetuningvisiontransformers,
title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction},
author={Mohamed Rashad},
year={2024},
eprint={2411.17835},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.17835},
}
@misc {mohamed_rashad_2024,
author = { {Mohamed Rashad} },
title = { arabic-small-nougat (Revision 48741d4) },
year = 2024,
url = { https://huggingface.co/MohamedRashad/arabic-small-nougat },
doi = { 10.57967/hf/3534 },
publisher = { Hugging Face }
}
免責聲明
阿拉伯語小型Nougat OCR是按“原樣”提供的工具,開發者不保證其適用於特定任務。建議用戶根據自己的特定用例和要求徹底評估模型的輸出。