qwen-for-jawi-v1オープンソースジャワ文字OCRモデル - 無料で歴史的マレー語テキストを識別する

ホーム

Qwen For Jawi V1

culturalheritagenusによって開発

Qwen2-VL-2B-Instructをファインチューニングしたジャウィ文字OCRモデル、歴史的マレー語テキストの識別に特化

画像生成テキスト

Transformers

#ジャウィ文字OCR #歴史文献のデジタル化 #マルチモーダル視覚言語モデル

ダウンロード数 155

リリース時間 : 10/3/2024

モデル概要

このモデルはジャウィ文字（アラビア文字で書かれたマレー語）の歴史文献に対する光学文字認識（OCR）タスクに最適化された視覚-言語モデルで、主に文化遺産のデジタル保存と歴史テキスト分析に使用されます

モデル特徴

ジャウィ文字専用OCR

歴史的マレー語文献中のジャウィ文字認識に特化して最適化

文化遺産保護

マレー文化遺産のデジタル保存を支援

性能優位性

一般的なアラビア語OCRモデルと比較し、ジャウィ文字認識で顕著な優位性を持つ

モデル能力

画像文字認識

歴史文献のデジタル化

ジャウィ文字転写

使用事例

文化遺産保護

歴史文献のデジタル化

ジャウィ文字で書かれたマレー歴史文献を編集可能なテキストに変換

CER 8.66%、WER 25.50%

学術研究

歴史テキスト分析

ジャウィ文字歴史テキストの計算分析を支援

🚀 モデル qwen-for-jawi-v1 のモデルカード

このモデルは、爪夷文（マレー語に適応させたアラビア文字）で書かれた歴史的なマレー語テキストの光学式文字認識（OCR）に特化した、Qwen/Qwen2-VL-7B-Instruct の微調整版です。

🚀 クイックスタート

このモデルは、爪夷文で書かれた歴史的なマレー語のテキストを高精度に認識するために開発されました。以下に、このモデルの基本的な情報や使用方法を説明します。

✨ 主な機能

モデルの概要

ベースモデル: Qwen2-VL-2B-Instruct
モデルタイプ: ビジョン・言語モデル
パラメータ数: 20億
言語: マレー語（爪夷文）

主な使用目的

爪夷文で書かれた歴史的なマレー語の写本のOCR
マレー文化遺産のデジタル保存
歴史的なマレー語テキストの計算分析の可能化

使用範囲外

一般的なアラビア語テキストの認識
現代マレー語テキストの処理
リアルタイムOCRアプリケーション

学習データ

このモデルは、以下のデータセットを使用して学習および評価されました。

学習手順

使用したハードウェア: 1 x H100
学習時間: 6時間

性能と制限

性能指標

文字誤り率 (CER): 8.66
単語誤り率 (WER): 25.50

他のモデルとの比較

このモデルを https://github.com/VikParuchuri/surya と比較しました。このモデルはアラビア語で高い精度を報告していますが、爪夷文のデータでは性能が低くなります。

文字誤り率 (CER): 70.89%
単語誤り率 (WER): 91.73%

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

# Example code for loading and using the model
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
import torch
from qwen_vl_utils import process_vision_info
from PIL import Image

model_name = 'mevsg/qwen-for-jawi-v1'

model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,  # Use the appropriate torch dtype if needed
    device_map='auto'            # Optional: automatically allocate model layers across devices
)

# Load the processor from Hugging Face Hub
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct")

# Add example usage code
image_path = 'path/to/image'
image = Image.open(image_path).convert('RGB')

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": image,
            },
            {"type": "text", "text": "Convert this image to text"},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)

print(output_text)

📚 ドキュメント

引用

@misc{qwen-for-jawi-v1,
  title     = {Qwen for Jawi v1: a model for Jawi OCR},
  author    = {[Miguel Escobar Varela]}, 
  year      = {2024},
  publisher = {HuggingFace},
  url       = {[https://huggingface.co/mevsg/qwen-for-Jawi-v1]},
  note      = {Model created at National University of Singapore }
}