arabic-small-nougat開源模型 - 專為阿拉伯語打造的端到端OCR系統

首頁

Arabic Small Nougat

由MohamedRashad開發

專為阿拉伯語設計的端到端結構化光學字符識別系統，基於facebook/nougat-small架構微調

圖像生成文本

Transformers

支持多種語言開源協議:Gpl-3.0 #阿拉伯語OCR #書籍數字化 #端到端結構化

下載量 1,149

發布時間 : 2/17/2024

模型概述

該模型是一個端到端的阿拉伯語書籍結構化OCR系統，能夠將阿拉伯語書籍圖像轉換為結構化文本（尤其是Markdown格式）。

模型特點

阿拉伯語OCR優化

專門針對阿拉伯語文本識別進行優化，能夠處理阿拉伯語書籍的複雜排版

結構化輸出

生成Markdown格式的結構化文本，保留原始文檔的格式信息

端到端處理

直接從圖像到文本的完整處理流程，無需中間步驟

模型能力

阿拉伯語文本識別

英語文本識別

書籍圖像處理

Markdown格式生成

使用案例

文獻數字化

阿拉伯古籍數字化

將阿拉伯語古籍圖像轉換為可編輯的數字化文本

實現古籍內容的電子化和可搜索化

印刷材料處理

阿拉伯語書籍掃描

處理掃描的阿拉伯語書籍頁面，提取文本內容

生成結構化的電子書內容

🚀 阿拉伯語小型Nougat模型

阿拉伯語小型Nougat是一款專為阿拉伯語書籍設計的端到端結構化光學字符識別（OCR）系統，能夠高效地將阿拉伯語書籍頁面圖像轉換為結構化文本。

🚀 快速開始

在線演示

你可以通過以下鏈接體驗模型的在線演示：Demo

本地使用

使用以下代碼在本地啟動模型：

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# 加載模型和處理器
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-small-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-small-nougat")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

context_length = 2048

def predict(img_path):
    # 為模型準備PDF圖像
    image = Image.open(img_path)
    pixel_values = processor(image, return_tensors="pt").pixel_values

    # 生成轉錄文本
    outputs = model.generate(
        pixel_values.to(device),
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
    return page_sequence

print(predict("path/to/page_image.jpg"))

✨ 主要特性

針對性優化：專門為阿拉伯語設計，能夠更好地處理阿拉伯語的字符和語法結構。
端到端處理：直接將圖像轉換為結構化文本，無需複雜的預處理和後處理步驟。
多語言支持：支持阿拉伯語和英語兩種語言。

📚 詳細文檔

模型描述

[**Github**](https://github.com/MohamedAliRashad/arabic-nougat) 🤗 [**Hugging Face**](https://huggingface.co/collections/MohamedRashad/arabic-nougat-673a3f540bd92904c9b92a8e) 📝 [**Paper**](https://arxiv.org/abs/2411.17835) 🗂️ [**Data**](https://huggingface.co/datasets/MohamedRashad/arabic-img2md) 📽️ [**Demo**](https://huggingface.co/spaces/MohamedRashad/Arabic-Nougat)

阿拉伯語小型Nougat OCR是一個專門為阿拉伯語設計的端到端結構化光學字符識別（OCR）系統。該模型基於facebook/nougat-small架構，並使用Khatt數據集以及為此目的創建的自定義數據集進行了微調。

模型使用場景

阿拉伯語小型Nougat OCR適用於將阿拉伯語書籍頁面圖像轉換為結構化文本的任務，特別是需要Markdown格式的情況。它適用於阿拉伯文學數字化領域的應用，有助於從印刷材料中提取文本。

模型侷限性

文本幻覺：由於OCR任務的固有複雜性，模型偶爾會生成重複或錯誤的文本。
錯誤的圖像路徑：模型有時會輸出與輸入無關的圖像路徑，表明存在偶爾的混淆。
上下文長度限制：模型的最大上下文長度為2048個標記，對於較長的書籍頁面，可能會導致轉錄不完整。

倫理考慮

在使用模型時，特別是在需要準確OCR結果的情況下，必須意識到模型的侷限性。建議用戶驗證和審查輸出，特別是在精度至關重要的場景中。

🔧 技術細節

模型詳情

屬性	詳情
開發者	Mohamed Rashad
模型類型	VisionEncoderDecoderModel
語言（NLP）	阿拉伯語 & 英語
許可證	GPL 3.0
微調基礎模型	nougat-small

致謝

如果你使用或基於阿拉伯語小型Nougat OCR進行開發，請感謝模型開發者和開源社區的貢獻。此外，在重新分發或修改模型的任何版本時，請務必包含GPL 3.0許可證的副本。

引用

如果你發現此模型有用，請考慮引用原始的facebook/nougat-small模型以及用於微調的數據集，包括Khatt數據集和自定義數據集的任何詳細信息。

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}
@misc {mohamed_rashad_2024,
	author       = { {Mohamed Rashad} },
	title        = { arabic-small-nougat (Revision 48741d4) },
	year         = 2024,
	url          = { https://huggingface.co/MohamedRashad/arabic-small-nougat },
	doi          = { 10.57967/hf/3534 },
	publisher    = { Hugging Face }
}