tablecell-htrオープンソースモデル - 無料で表のセル画像の手書きテキストを認識、フィンランドの古い記録に適用可能

ホーム

Tablecell Htr

Kansallisarkistoによって開発

このモデルは、表セルのテキスト行画像から手書きテキストを認識するために使用され、特に1930年代のフィンランドの死亡記録や国勢調査記録の手書きテキスト認識に適しています。

文字認識

Safetensors

オープンソースライセンス:MIT #表手書き認識 #歴史文書処理 #フィンランド語OCR

ダウンロード数 39

リリース時間 : 9/12/2024

モデル概要

フィンランド国立公文書館の多世紀にわたる手書きテキスト認識モデルとマイクロソフトのTrOCRモデルをファインチューニングして作成され、特定の種類の表セル内の手書きテキストを認識するために特別に設計されています。

モデル特徴

特定ドメイン最適化

歴史的文書の表セル内の手書きテキストに特化して最適化されており、高い認識精度を実現

TrOCRアーキテクチャベース

マイクロソフトのTrOCRモデルの強力な機能を活用し、ドメイン固有データでファインチューニング

GPUアクセラレーションサポート

GPUアクセラレーション推論をサポートし、処理速度を向上

モデル能力

手書きテキスト認識

表セル内容抽出

歴史的文書デジタル化

使用事例

アーカイブデジタル化

歴史的人口記録転写

1930年代のフィンランド国勢調査記録の手書き内容を検索可能なテキストに変換

検証CERは0.107、WERは0.237

死亡記録デジタル化

歴史的死亡記録表の手書き情報を自動認識・転写

🚀 表セル画像の手書き文字認識モデル

このモデルは、テキスト行画像から手書き文字を認識することができます。国立公文書館のMulticentury HTRモデルとMicrosoftのTrOCRモデルをファインチューニングし、1930年代のフィンランドの死亡記録と国勢調査記録の表から取得したテキスト行画像を使用して学習されました。

🚀 クイックスタート

モデルの概要

このモデルは、特定の種類の表セルデータから手書き文字を認識するように学習されており、他のデータセットに対する汎化能力は低い可能性があります。入力としてテキスト行画像を受け取り、他のタイプの入力の使用は推奨されません。

モデルの使用方法

以下のコードを使用して、画像のテキスト内容を予測することができます。可能であれば、推論にGPUを使用することをお勧めします。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import torch

# Use GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Model location in Huggingface Hub
model_checkpoint = "Kansallisarkisto/tablecell-htr"
# Path to textline image
line_image_path = "/path/to/textline_image.jpg"

# Initialize processor and model
processor = TrOCRProcessor.from_pretrained(model_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

# Open image file and extract pixel values
image = Image.open(line_image_path).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

# Use the model to generate predictions 
generated_ids = model.generate(pixel_values.to(device))
# Use the processor to decode ids to text
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)

HuggingFace Hubからダウンロードしたモデルは、ローカルの~/.cache/huggingface/hub/に保存されます。

✨ 主な機能

テキスト行画像からの手書き文字認識
特定の表セルデータに対する高精度な認識

📦 インストール

このモデルはHuggingFace Hubから直接ダウンロードできます。上記のコードを実行することで自動的にダウンロードされます。

💻 使用例

基本的な使用法

# 上記のコードと同じ
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import torch

# Use GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Model location in Huggingface Hub
model_checkpoint = "Kansallisarkisto/tablecell-htr"
# Path to textline image
line_image_path = "/path/to/textline_image.jpg"

# Initialize processor and model
processor = TrOCRProcessor.from_pretrained(model_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

# Open image file and extract pixel values
image = Image.open(line_image_path).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

# Use the model to generate predictions 
generated_ids = model.generate(pixel_values.to(device))
# Use the processor to decode ids to text
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)