アラビア語ベースの無料OCRシステムnougat - アラビア語向けのエンドツーエンドの文書認識システム

ホーム

Arabic Base Nougat

MohamedRashadによって開発

アラビア語向けに設計されたエンドツーエンド構造化光学文字認識（OCR）システム、facebook/nougat-baseアーキテクチャを基にファインチューニング

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Gpl-3.0 #アラビア語OCR #書籍デジタル化 #エンドツーエンド構造化

ダウンロード数 130

リリース時間 : 10/13/2024

モデル概要

このモデルはエンドツーエンドの構造化アラビア語書籍光学文字認識（OCR）システムで、アラビア語書籍ページ画像を構造化テキストに変換でき、特にMarkdown形式が必要なシナリオに適しています。

モデル特徴

アラビア語OCR最適化

アラビア語テキストに特化して最適化されており、アラビア語書籍ページの複雑なレイアウトや文字を正確に認識可能

構造化出力

Markdown形式の構造化テキスト出力をサポートし、元の文書のフォーマット情報を保持

エンドツーエンド処理

画像入力からテキスト出力まで直接処理可能で、中間処理ステップが不要

モデル能力

アラビア語テキスト認識

英語テキスト認識

書籍ページ画像処理

Markdown形式生成

使用事例

文献デジタル化

アラビア古典籍デジタル化

印刷版アラビア古典籍を編集可能なデジタルテキストに変換

元のレイアウトとフォーマットを保持した構造化テキスト

教育

教材内容抽出

アラビア語教材スキャンから教育内容を抽出

電子教材作成に便利な編集可能な教材テキスト

🚀 アラビア語ベースのNougat

アラビア語の書籍に特化した、エンドツーエンドの構造化OCRシステムです。

🚀 クイックスタート

アラビア語ベースのNougat OCRは、アラビア語に特化したエンドツーエンドの構造化光学文字認識（OCR）システムです。

デモ

こちらのデモをご利用いただけます。

ローカルでの使用方法

以下のコードを使って、モデルをローカルで使用することができます。ただし、transformersを更新することを忘れないでください。

pip install -U transformers

from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel

# モデルとプロセッサをロード
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-base-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-base-nougat", torch_dtype=torch.bfloat16, attn_implementation={"decoder": "flash_attention_2", "encoder": "eager"})

# モデルの最大コンテキスト長と重みのデータ型を取得
context_length = model.decoder.config.max_position_embeddings
torch_dtype = model.dtype

# 利用可能な場合はGPUにモデルを移動
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

def predict(img_path):
    # PDF画像をモデル用に準備
    image = Image.open(img_path)
    pixel_values = processor(image, return_tensors="pt").pixel_values.to(torch_dtype).to(device)

    # 文字起こしを生成
    outputs = model.generate(
        pixel_values.to(device),
        repetition_penalty=1.5,
        min_length=1,
        max_new_tokens=context_length,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
    )

    page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
    return page_sequence

print(predict("path/to/page_image.jpg"))

✨ 主な機能

アラビア語ベースのNougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに最適化されています。特にMarkdown形式が必要な場合に最適で、アラビア文学のデジタル化や印刷物からのテキスト抽出などの分野でのアプリケーションに適しています。

🔧 技術詳細

バイアス、リスク、制限事項

テキストのホールミネーション：OCRタスクの固有の複雑さにより、モデルは時折、繰り返しまたは誤ったテキストを生成することがあります。
誤った画像パス：モデルが入力と関係のない画像パスを出力する場合があり、これは時折の混乱を示しています。
コンテキスト長の制約：モデルの最大コンテキスト長は2048トークンであり、長い書籍ページの場合、文字起こしが不完全になる可能性があります。

意図された使用方法

アラビア語ベースのNougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに設計されています。特にMarkdown形式が必要な場合に適しており、アラビア文学のデジタル化や印刷物からのテキスト抽出などの分野でのアプリケーションに最適です。

倫理的な考慮事項

正確なOCR結果が重要な場合、モデルの制限事項を認識することが重要です。ユーザーは、特に精度が最も重要なシナリオでは、出力を検証およびレビューすることをお勧めします。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
開発者	Mohamed Rashad
モデルタイプ	VisionEncoderDecoderModel
言語	アラビア語と英語
ライセンス	GPL 3.0
ファインチューニング元のモデル	nougat-base

謝辞

アラビア語ベースのNougat OCRを使用または拡張する場合は、モデル開発者とオープンソースコミュニティの貢献を認めてください。また、モデルの再配布または修正バージョンには、GPL 3.0ライセンスのコピーを必ず含めてください。GPL 3.0ライセンスを選択することで、オープンソースの原則を促進し、モデルの恩恵を幅広いコミュニティと共有することができます。

引用

このモデルが役に立った場合は、対応する研究論文を引用してください。

@misc{rashad2024arabicnougatfinetuningvisiontransformers,
      title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction}, 
      author={Mohamed Rashad},
      year={2024},
      eprint={2411.17835},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.17835}, 
}

免責事項

アラビア語ベースのNougat OCRは「現状のまま」提供されるツールであり、開発者は特定のタスクへの適合性について保証しません。ユーザーは、特定のユースケースや要件に対してモデルの出力を十分に評価することをお勧めします。

[**Github**](https://github.com/MohamedAliRashad/arabic-nougat) 🤗 [**Hugging Face**](https://huggingface.co/collections/MohamedRashad/arabic-nougat-673a3f540bd92904c9b92a8e) 📝 [**論文**](https://arxiv.org/abs/2411.17835) 🗂️ [**データ**](https://huggingface.co/datasets/MohamedRashad/arabic-img2md) 📽️ [**デモ**](https://huggingface.co/spaces/MohamedRashad/Arabic-Nougat)