arabic - base - nougat免費OCR系統 - 專為阿拉伯語設計的端到端文檔識別

首頁

Arabic Base Nougat

由MohamedRashad開發

專為阿拉伯語設計的端到端結構化光學字符識別（OCR）系統，基於facebook/nougat-base架構微調

圖像生成文本

Transformers

支持多種語言開源協議:Gpl-3.0 #阿拉伯語OCR #書籍數字化 #端到端結構化

下載量 130

發布時間 : 10/13/2024

模型概述

該模型是一個端到端的結構化阿拉伯語書籍光學字符識別（OCR）系統，能夠將阿拉伯語書籍頁面圖像轉換為結構化文本，特別適用於需要Markdown格式的場景。

模型特點

阿拉伯語OCR優化

專門針對阿拉伯語文本進行優化，能夠準確識別阿拉伯語書籍頁面中的複雜排版和字符

結構化輸出

支持生成Markdown格式的結構化文本輸出，保留原始文檔的格式信息

端到端處理

直接從圖像輸入到文本輸出，無需中間處理步驟

模型能力

阿拉伯語文本識別

英語文本識別

書籍頁面圖像處理

Markdown格式生成

使用案例

文獻數字化

阿拉伯古籍數字化

將印刷版阿拉伯古籍轉換為可編輯的數字文本

保留原始排版和格式的結構化文本

教育

教材內容提取

從阿拉伯語教材掃描件中提取教學內容

可編輯的教材文本，便於製作電子教材

🚀 阿拉伯基礎Nougat模型

阿拉伯基礎Nougat是一個專為阿拉伯語書籍設計的端到端結構化光學字符識別（OCR）系統，能夠將阿拉伯書籍頁面圖像轉換為結構化文本。

🚀 快速開始

在線演示

你可以通過這個鏈接進行在線體驗：Demo

本地使用

在本地使用前，請確保更新transformers庫：

pip install -U transformers

以下是使用該模型的示例代碼：

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# 加載模型和處理器
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-base-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-base-nougat", torch_dtype=torch.bfloat16, attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"})

# 獲取模型的最大上下文長度和權重的數據類型
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype

# 如果GPU可用，將模型移動到GPU上
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

def predict(img_path):
    # 為模型準備PDF圖像
    image = Image.open(img_path)
    pixel_values = processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)

    # 生成轉錄結果
    outputs = model.generate(
        pixel_values.to(device),
        repetition_penalty=1.5,
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
    return page_sequence

print(predict("path/to/page_image.jpg"))

✨ 主要特性

阿拉伯基礎Nougat模型基於facebook/nougat-base架構，並使用MohamedRashad/arabic-img2md數據集進行微調。它可以將阿拉伯書籍頁面圖像轉換為結構化文本，尤其適用於需要Markdown格式的場景。

📚 詳細文檔

偏差、風險和侷限性

文本幻覺：由於OCR任務的固有複雜性，模型偶爾可能會生成重複或錯誤的文本。
錯誤的圖像路徑：模型有時會輸出與輸入無關的圖像路徑，表明存在偶爾的混淆。
上下文長度限制：模型的最大上下文長度為2048個標記，對於較長的書籍頁面，可能會導致轉錄不完整。

預期用途

該模型旨在將阿拉伯書籍頁面的圖像轉換為結構化文本，特別是需要Markdown格式時。它適用於阿拉伯文學數字化領域的應用，以及從印刷材料中提取文本的任務。

倫理考慮

在需要精確OCR結果的情況下，用戶必須意識到模型的侷限性。建議用戶驗證和審查輸出，特別是在精度至關重要的場景中。

模型詳情

屬性	詳情
開發者	Mohamed Rashad
模型類型	VisionEncoderDecoderModel
支持語言	阿拉伯語和英語
許可證	GPL 3.0
微調基礎模型	nougat-base

致謝

如果使用或基於阿拉伯基礎Nougat OCR進行開發，請感謝模型開發者和開源社區的貢獻。此外，在重新分發或修改模型的任何版本時，請務必包含GPL 3.0許可證的副本。通過選擇GPL 3.0許可證，你促進了開源原則，並確保模型的益處能夠與更廣泛的社區共享。

引用

如果你發現該模型有用，請引用相應的研究論文：

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}