多世紀HTRモデル（multicentury-htr-model）：オープンソースの手書きテキスト認識モデル - スウェーデン語、フィンランド語の歴史文書のデジタル化を支援

ホーム

Multicentury Htr Model

Kansallisarkistoによって開発

Transformerベースの手書きテキスト認識モデルで、スウェーデン語とフィンランド語に特化しており、歴史文書のデジタル化に適しています。

文字認識

PyTorch

その他オープンソースライセンス:Apache-2.0 #手書きテキスト認識 #複数世紀の手書きスタイル #北欧言語OCR

ダウンロード数 39

リリース時間 : 10/7/2024

モデル概要

このモデルはmicrosoft/trocr-large-handwrittenをファインチューニングしたバージョンで、17世紀から20世紀の手書きテキストの認識に焦点を当てており、文書のデジタル化や手書きメモの転写をサポートします。

モデル特徴

複数世紀の手書きサポート

トレーニングデータは17世紀から20世紀の手書きサンプルをカバーしており、多様な筆記スタイルに対応しています。

北欧言語の最適化

フィンランド語とスウェーデン語の特殊文字（å, ä, öなど）に特化して最適化されています。

高精度認識

テストセットで3.2の文字誤り率（CER）を達成し、優れた性能を発揮します。

モデル能力

手書きテキスト認識

歴史文書の転写

表データの抽出

使用事例

アーカイブのデジタル化

歴史的手書き原稿の転写

アーカイブに保管されている歴史的な手書き文書を検索可能なデジタルテキストに変換します。

CER 3.2（テストセット94,900行のテキスト）

個人用途

手書きメモの転写

個人の手書きメモを電子テキスト形式に変換します。

🚀 マルチセンチュリーHTRモデル

このモデルはTransformerベースのOCR（TrOCR）で、手書きテキストの認識に特化しています。17世紀から20世紀までの様々なデータセットで学習され、文書のデジタル化や手書きメモの文字起こしなどのタスクに利用できます。

🚀 クイックスタート

このモデルは、Hugging Faceのパイプライン関数を使用するか、プロセッサとモデルを手動でロードすることで直接利用できます。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# モデルとプロセッサをロードする
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")

# 手書きテキストの画像を開く
image = Image.open("path_to_image.png")

# 前処理と予測
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(generated_text)

✨ 主な機能

手書きテキストの認識に特化したTransformerベースのOCR（TrOCR）モデルです。
17世紀から20世紀までの様々なデータセットで学習されています。
文書のデジタル化や手書きメモの文字起こしなどのタスクに利用できます。

📦 インストール

このモデルを使用するには、transformersとPillowライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers pillow

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# モデルとプロセッサをロードする
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")

# 手書きテキストの画像を開く
image = Image.open("path_to_image.png")

# 前処理と予測
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(generated_text)

📚 ドキュメント

モデルの説明

モデル名: multicentury-htr-model モデルタイプ: TransformerベースのOCR（TrOCR） ベースモデル: microsoft/trocr-large-handwritten 目的: 手書きテキストの認識 言語: スウェーデン語、フィンランド語 ライセンス: Apache 2.0

このモデルは、microsoft/trocr-large-handwrittenモデルをファインチューニングしたもので、手書きテキストの認識に特化しています。17世紀から20世紀までの様々なデータセットで学習されており、文書のデジタル化、フォーム認識、または手書きテキストの抽出を含むあらゆるタスクに使用できます。

モデルアーキテクチャ

このモデルは、エンコーダーとデコーダーのセットアップを持つTransformerアーキテクチャ（TrOCR）に基づいています。

エンコーダーは手書きテキストの画像を処理します。
デコーダーは対応するテキスト出力を生成します。

想定される使用方法

このモデルは手書きテキストの認識を目的として設計されており、以下の用途に使用されることを想定しています。

文書のデジタル化（例：アーカイブ作業、歴史的な原稿）
手書きメモの文字起こし

学習データ

学習データセットには、760,000以上の手書きテキスト行のサンプルが含まれており、様々な手書きスタイルとテキストサンプルを網羅しています。

評価

このモデルはテストデータセットで評価されました。以下は主要なメトリクスです。 文字誤り率（CER）: 3.2 テストデータセットの説明: サイズ ~94,900テキスト行

🔧 技術詳細

このモデルは、Transformerアーキテクチャ（TrOCR）を使用しており、エンコーダーとデコーダーのセットアップを持っています。エンコーダーは手書きテキストの画像を処理し、デコーダーは対応するテキスト出力を生成します。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

⚠️ 重要提示

このモデルは主に基本的なラテン文字（A - Z、a - z）と北欧の特殊文字（å、ä、ö）を使用する手書きテキストで学習されています。中国語の文字、キリル文字、またはアラビア語やヘブライ語などの他の書記体系などの非ラテンアルファベットでは学習されていません。このモデルは、フィンランド語、スウェーデン語、または英語以外の言語にはうまく汎化しない可能性があります。

💡 使用建议

モデルを使用する前に、必要なライブラリをインストールしてください。
手書きテキストの画像は、鮮明で読みやすいものを使用することをおすすめします。

引用

もしあなたがこのモデルをあなたの研究で使用する場合は、以下のように引用してください。

@misc{multicentury_htr_model_2024,
  author = {Kansallisarkisto},
  title = {Multicentury HTR Model: Handwritten Text Recognition},
  year = {2024},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}