🚀 マルチセンチュリーHTRモデル
このモデルはTransformerベースのOCR(TrOCR)で、手書きテキストの認識に特化しています。17世紀から20世紀までの様々なデータセットで学習され、文書のデジタル化や手書きメモの文字起こしなどのタスクに利用できます。
🚀 クイックスタート
このモデルは、Hugging Faceのパイプライン関数を使用するか、プロセッサとモデルを手動でロードすることで直接利用できます。
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")
image = Image.open("path_to_image.png")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
✨ 主な機能
- 手書きテキストの認識に特化したTransformerベースのOCR(TrOCR)モデルです。
- 17世紀から20世紀までの様々なデータセットで学習されています。
- 文書のデジタル化や手書きメモの文字起こしなどのタスクに利用できます。
📦 インストール
このモデルを使用するには、transformers
とPillow
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers pillow
💻 使用例
基本的な使用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")
image = Image.open("path_to_image.png")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
📚 ドキュメント
モデルの説明
モデル名: multicentury-htr-model
モデルタイプ: TransformerベースのOCR(TrOCR)
ベースモデル: microsoft/trocr-large-handwritten
目的: 手書きテキストの認識
言語: スウェーデン語、フィンランド語
ライセンス: Apache 2.0
このモデルは、microsoft/trocr-large-handwrittenモデルをファインチューニングしたもので、手書きテキストの認識に特化しています。17世紀から20世紀までの様々なデータセットで学習されており、文書のデジタル化、フォーム認識、または手書きテキストの抽出を含むあらゆるタスクに使用できます。
モデルアーキテクチャ
このモデルは、エンコーダーとデコーダーのセットアップを持つTransformerアーキテクチャ(TrOCR)に基づいています。
- エンコーダーは手書きテキストの画像を処理します。
- デコーダーは対応するテキスト出力を生成します。
想定される使用方法
このモデルは手書きテキストの認識を目的として設計されており、以下の用途に使用されることを想定しています。
- 文書のデジタル化(例:アーカイブ作業、歴史的な原稿)
- 手書きメモの文字起こし
学習データ
学習データセットには、760,000以上の手書きテキスト行のサンプルが含まれており、様々な手書きスタイルとテキストサンプルを網羅しています。
評価
このモデルはテストデータセットで評価されました。以下は主要なメトリクスです。
文字誤り率(CER): 3.2
テストデータセットの説明: サイズ ~94,900テキスト行
🔧 技術詳細
このモデルは、Transformerアーキテクチャ(TrOCR)を使用しており、エンコーダーとデコーダーのセットアップを持っています。エンコーダーは手書きテキストの画像を処理し、デコーダーは対応するテキスト出力を生成します。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
⚠️ 重要提示
このモデルは主に基本的なラテン文字(A - Z、a - z)と北欧の特殊文字(å、ä、ö)を使用する手書きテキストで学習されています。中国語の文字、キリル文字、またはアラビア語やヘブライ語などの他の書記体系などの非ラテンアルファベットでは学習されていません。このモデルは、フィンランド語、スウェーデン語、または英語以外の言語にはうまく汎化しない可能性があります。
💡 使用建议
- モデルを使用する前に、必要なライブラリをインストールしてください。
- 手書きテキストの画像は、鮮明で読みやすいものを使用することをおすすめします。
引用
もしあなたがこのモデルをあなたの研究で使用する場合は、以下のように引用してください。
@misc{multicentury_htr_model_2024,
author = {Kansallisarkisto},
title = {Multicentury HTR Model: Handwritten Text Recognition},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}
モデルカードの作成者
作成者: Kansallisarkisto
連絡先: riikka.marttila@kansallisarkisto.fi, ilkka.jokipii@kansallisarkisto.fi