免費開源！arabic-large-nougat將阿拉伯語書籍圖像轉為結構化文本

首頁

Arabic Large Nougat

由MohamedRashad開發

專為阿拉伯語設計的端到端結構化光學字符識別系統，可將書籍頁面圖像轉換為結構化文本（Markdown格式）

圖像生成文本

Transformers

支持多種語言開源協議:Gpl-3.0 #阿拉伯語OCR #書籍數字化 #端到端識別

下載量 537

發布時間 : 10/18/2024

模型概述

該模型基於新型分詞器從頭訓練，採用基礎Nougat架構，適用於阿拉伯文獻數字化和印刷材料文本提取等領域。

模型特點

阿拉伯語專用OCR

專門針對阿拉伯語文本優化的光學字符識別系統

結構化輸出

能夠生成Markdown格式的結構化文本輸出

端到端解決方案

直接從圖像到文本的完整處理流程，無需中間步驟

書籍處理優化

特別適合處理阿拉伯語書籍頁面

模型能力

阿拉伯語文本識別

英語文本識別

書籍頁面處理

Markdown格式生成

使用案例

文獻數字化

阿拉伯古籍數字化

將印刷版阿拉伯古籍轉換為可搜索的數字化文本

保留原始文本結構和格式

教育

教材內容提取

從阿拉伯語教材中提取文本內容用於電子化學習

結構化輸出便於後續處理

🚀 阿拉伯大諾加特模型（Arabic Large Nougat）

阿拉伯大諾加特模型是一款專門為阿拉伯語書籍設計的端到端結構化光學字符識別（OCR）系統，能夠高效地將阿拉伯語書籍頁面圖像轉換為結構化文本。

🚀 快速開始

在線演示

你可以通過以下鏈接體驗模型的在線演示：點擊進入

本地使用

若要在本地使用該模型，請確保更新 transformers 庫：

pip install -U transformers

以下是使用該模型的示例代碼：

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# 加載模型和處理器
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-large-nougat")
model = VisionEncoderDecoderModel.from_pretrained(
    "MohamedRashad/arabic-large-nougat",
    torch_dtype=torch.bfloat16,
    attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"},
)

# 獲取模型的最大上下文長度和權重的數據類型
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype

# 如果有可用的GPU，將模型移動到GPU上
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)


def predict(img_path):
    # 為模型準備PDF圖像
    image = Image.open(img_path)
    pixel_values = (
        processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)
    )

    # 生成轉錄結果
    outputs = model.generate(
        pixel_values.to(device),
        repetition_penalty=1.5,
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return page_sequence


print(predict("path/to/page_image.jpg"))

✨ 主要特性

專為阿拉伯語設計：該模型是專門為阿拉伯語書籍的OCR任務而開發的，能夠更好地處理阿拉伯語的字符和語法結構。
端到端結構化識別：可以直接將阿拉伯語書籍頁面圖像轉換為結構化的文本，方便後續的處理和使用。
基於新分詞器訓練：模型基於新的分詞器 riotu-lab/Aranizer-PBE-86k 進行訓練，提高了識別的準確性。

📚 詳細文檔

模型描述

阿拉伯大諾加特OCR是一個專門為阿拉伯語設計的端到端結構化光學字符識別（OCR）系統。該模型基於新的分詞器 riotu-lab/Aranizer-PBE-86k 和基礎的諾加特架構從頭開始訓練，使用了 MohamedRashad/arabic-img2md 數據集進行訓練。

模型侷限性

文本幻覺：由於OCR任務的固有複雜性，模型偶爾可能會生成重複或錯誤的文本。
錯誤的圖像路徑：模型有時會輸出與輸入無關的圖像路徑，表明存在偶爾的混淆。
上下文長度限制：模型的最大上下文長度為2048個標記，對於較長的書籍頁面，可能會導致轉錄不完整。

預期用途

該模型適用於將阿拉伯語書籍頁面圖像轉換為結構化文本的任務，特別是在需要Markdown格式的情況下。它適用於阿拉伯文學數字化領域的應用，以及從印刷材料中提取文本的場景。

倫理考慮

在使用該模型時，用戶需要注意模型的侷限性，特別是在對OCR結果準確性要求較高的情況下。建議用戶對模型的輸出進行驗證和審查，尤其是在對精度要求極高的場景中。

模型詳情

屬性	詳情
開發者	Mohamed Rashad
模型類型	VisionEncoderDecoderModel
語言	阿拉伯語和英語
許可證	GPL 3.0

致謝

如果您使用或基於阿拉伯大諾加特OCR進行開發，請感謝模型開發者和開源社區的貢獻。此外，在重新分發或修改模型的任何版本時，請務必包含GPL 3.0許可證的副本。通過選擇GPL 3.0許可證，您可以促進開源原則，並確保模型的好處能夠與更廣泛的社區共享。

引用

如果您發現該模型有用，請引用相應的研究論文：

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}