arabic-small-nougatオープンソースモデル - アラビア語用に特別に開発されたエンドツーエンドのOCRシステム

Home

Arabic Small Nougat

Developed by MohamedRashad

アラビア語専用に設計されたエンドツーエンド構造化光学文字認識システム、facebook/nougat-smallアーキテクチャを基にファインチューニング

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:Gpl-3.0 #アラビア語OCR #書籍デジタル化 #エンドツーエンド構造化

Downloads 1,149

Release Time : 2/17/2024

Model Overview

このモデルはアラビア語書籍の構造化OCRシステムで、アラビア語書籍画像を構造化テキスト（特にMarkdown形式）に変換できます。

Model Features

アラビア語OCR最適化

アラビア語テキスト認識に特化して最適化され、アラビア語書籍の複雑な組版を処理可能

構造化出力

Markdown形式の構造化テキストを生成し、元の文書のフォーマット情報を保持

エンドツーエンド処理

画像からテキストへの完全な処理フローを直接実現、中間ステップ不要

Model Capabilities

アラビア語テキスト認識

英語テキスト認識

書籍画像処理

Markdown形式生成

Use Cases

文献デジタル化

アラビア古典籍デジタル化

アラビア語古典籍画像を編集可能なデジタルテキストに変換

古典籍内容の電子化と検索可能化を実現

印刷材料処理

アラビア語書籍スキャン

スキャンしたアラビア語書籍ページを処理し、テキスト内容を抽出

構造化された電子書籍コンテンツを生成

🚀 アラビア語小型Nougat

アラビア語の書籍に対するエンドツーエンドの構造化OCRシステムです。

🚀 クイックスタート

デモ

こちらからデモを試すことができます。

ローカルでの使用

以下のコードを使用して、モデルをローカルで使用を開始できます。

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# モデルとプロセッサをロード
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-small-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-small-nougat")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

context_length = 2048

def predict(img_path):
    # PDF画像をモデル用に準備
    image = Image.open(img_path)
    pixel_values = processor(image, return_tensors="pt").pixel_values

    # 文字起こしを生成
    outputs = model.generate(
        pixel_values.to(device),
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
    return page_sequence

print(predict("path/to/page_image.jpg"))

✨ 主な機能

アラビア語小型Nougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに特化して設計されています。特にMarkdown形式が必要な場合に最適で、アラビア文学のデジタル化や印刷物からのテキスト抽出に役立ちます。

📚 ドキュメント

説明

[**Github**](https://github.com/MohamedAliRashad/arabic-nougat) 🤗 [**Hugging Face**](https://huggingface.co/collections/MohamedRashad/arabic-nougat-673a3f540bd92904c9b92a8e) 📝 [**論文**](https://arxiv.org/abs/2411.17835) 🗂️ [**データ**](https://huggingface.co/datasets/MohamedRashad/arabic-img2md) 📽️ [**デモ**](https://huggingface.co/spaces/MohamedRashad/Arabic-Nougat)

アラビア語小型Nougat OCRは、アラビア語専用に設計されたエンドツーエンドの構造化光学文字認識（OCR）システムです。このモデルはfacebook/nougat-smallアーキテクチャに基づいており、Khattデータセットとこの目的のために作成されたカスタムデータセットを使用してファインチューニングされています。

バイアス、リスク、制限事項

テキストの幻想現象：OCRタスクの固有の複雑さにより、モデルは時折、繰り返されたまたは誤ったテキストを生成することがあります。
誤った画像パス：モデルが入力と関係のない画像パスを出力する場合があり、これは時折の混乱を示しています。
コンテキスト長の制約：モデルの最大コンテキスト長は2048トークンであり、長い書籍ページの場合は文字起こしが不完全になることがあります。

想定される用途

アラビア語小型Nougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに最適です。特にMarkdown形式が必要な場合に適しており、アラビア文学のデジタル化や印刷物からのテキスト抽出に役立ちます。

倫理的な考慮事項

正確なOCR結果が重要な場合、モデルの制限事項を認識することが重要です。ユーザーは、特に精度が最重要なシナリオでは、出力を検証およびレビューすることをお勧めします。

モデルの詳細

属性	詳情
開発者	Mohamed Rashad
モデルタイプ	VisionEncoderDecoderModel
言語	アラビア語と英語
ライセンス	GPL 3.0
ファインチューニング元のモデル	nougat-small

謝辞

アラビア語小型Nougat OCRを使用または拡張する場合は、モデル開発者とオープンソースコミュニティの貢献を認めてください。また、モデルの再配布または修正バージョンには、GPL 3.0ライセンスのコピーを含めるようにしてください。GPL 3.0ライセンスを選択することで、オープンソースの原則を促進し、モデルの恩恵を幅広いコミュニティと共有することができます。

引用

このモデルが役に立った場合は、元のfacebook/nougat-smallモデルとファインチューニングに使用されたデータセット（Khattデータセットやカスタムデータセットの詳細を含む）を引用することを検討してください。

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}
@misc {mohamed_rashad_2024,
	author       = { {Mohamed Rashad} },
	title        = { arabic-small-nougat (Revision 48741d4) },
	year         = 2024,
	url          = { https://huggingface.co/MohamedRashad/arabic-small-nougat },
	doi          = { 10.57967/hf/3534 },
	publisher    = { Hugging Face }
}