🚀 アラビア語小型Nougat
アラビア語の書籍に対するエンドツーエンドの構造化OCRシステムです。
🚀 クイックスタート
デモ
こちらからデモを試すことができます。
ローカルでの使用
以下のコードを使用して、モデルをローカルで使用を開始できます。
from PIL import Image
import torch
from transformers import NougatProcessor, VisionEncoderDecoderModel
processor = NougatProcessor.from_pretrained("MohamedRashad/arabic-small-nougat")
model = VisionEncoderDecoderModel.from_pretrained("MohamedRashad/arabic-small-nougat")
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
context_length = 2048
def predict(img_path):
image = Image.open(img_path)
pixel_values = processor(image, return_tensors="pt").pixel_values
outputs = model.generate(
pixel_values.to(device),
min_length=1,
max_new_tokens=context_length,
bad_words_ids=[[processor.tokenizer.unk_token_id]],
)
page_sequence = processor.batch_decode(outputs, skip_special_tokens=True)[0]
page_sequence = processor.post_process_generation(page_sequence, fix_markdown=False)
return page_sequence
print(predict("path/to/page_image.jpg"))
✨ 主な機能
アラビア語小型Nougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに特化して設計されています。特にMarkdown形式が必要な場合に最適で、アラビア文学のデジタル化や印刷物からのテキスト抽出に役立ちます。
📚 ドキュメント
説明
[**Github**](https://github.com/MohamedAliRashad/arabic-nougat) 🤗 [**Hugging Face**](https://huggingface.co/collections/MohamedRashad/arabic-nougat-673a3f540bd92904c9b92a8e) 📝 [**論文**](https://arxiv.org/abs/2411.17835) 🗂️ [**データ**](https://huggingface.co/datasets/MohamedRashad/arabic-img2md) 📽️ [**デモ**](https://huggingface.co/spaces/MohamedRashad/Arabic-Nougat)
アラビア語小型Nougat OCRは、アラビア語専用に設計されたエンドツーエンドの構造化光学文字認識(OCR)システムです。このモデルはfacebook/nougat-smallアーキテクチャに基づいており、Khattデータセットとこの目的のために作成されたカスタムデータセットを使用してファインチューニングされています。
バイアス、リスク、制限事項
- テキストの幻想現象:OCRタスクの固有の複雑さにより、モデルは時折、繰り返されたまたは誤ったテキストを生成することがあります。
- 誤った画像パス:モデルが入力と関係のない画像パスを出力する場合があり、これは時折の混乱を示しています。
- コンテキスト長の制約:モデルの最大コンテキスト長は2048トークンであり、長い書籍ページの場合は文字起こしが不完全になることがあります。
想定される用途
アラビア語小型Nougat OCRは、アラビア語の書籍ページの画像を構造化テキストに変換するタスクに最適です。特にMarkdown形式が必要な場合に適しており、アラビア文学のデジタル化や印刷物からのテキスト抽出に役立ちます。
倫理的な考慮事項
正確なOCR結果が重要な場合、モデルの制限事項を認識することが重要です。ユーザーは、特に精度が最重要なシナリオでは、出力を検証およびレビューすることをお勧めします。
モデルの詳細
属性 |
詳情 |
開発者 |
Mohamed Rashad |
モデルタイプ |
VisionEncoderDecoderModel |
言語 |
アラビア語と英語 |
ライセンス |
GPL 3.0 |
ファインチューニング元のモデル |
nougat-small |
謝辞
アラビア語小型Nougat OCRを使用または拡張する場合は、モデル開発者とオープンソースコミュニティの貢献を認めてください。また、モデルの再配布または修正バージョンには、GPL 3.0ライセンスのコピーを含めるようにしてください。GPL 3.0ライセンスを選択することで、オープンソースの原則を促進し、モデルの恩恵を幅広いコミュニティと共有することができます。
引用
このモデルが役に立った場合は、元のfacebook/nougat-smallモデルとファインチューニングに使用されたデータセット(Khattデータセットやカスタムデータセットの詳細を含む)を引用することを検討してください。
@misc{rashad2024arabicnougatfinetuningvisiontransformers,
title={Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction},
author={Mohamed Rashad},
year={2024},
eprint={2411.17835},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.17835},
}
@misc {mohamed_rashad_2024,
author = { {Mohamed Rashad} },
title = { arabic-small-nougat (Revision 48741d4) },
year = 2024,
url = { https://huggingface.co/MohamedRashad/arabic-small-nougat },
doi = { 10.57967/hf/3534 },
publisher = { Hugging Face }
}
免責事項
アラビア語小型Nougat OCRは「現状のまま」提供されるツールであり、開発者は特定のタスクへの適合性に関して保証を行いません。ユーザーは、特定のユースケースや要件に対してモデルの出力を十分に評価することをお勧めします。