M

Multicentury Htr Model

Kansallisarkistoによって開発
Transformerベースの手書きテキスト認識モデルで、スウェーデン語とフィンランド語に特化しており、歴史文書のデジタル化に適しています。
ダウンロード数 39
リリース時間 : 10/7/2024

モデル概要

このモデルはmicrosoft/trocr-large-handwrittenをファインチューニングしたバージョンで、17世紀から20世紀の手書きテキストの認識に焦点を当てており、文書のデジタル化や手書きメモの転写をサポートします。

モデル特徴

複数世紀の手書きサポート
トレーニングデータは17世紀から20世紀の手書きサンプルをカバーしており、多様な筆記スタイルに対応しています。
北欧言語の最適化
フィンランド語とスウェーデン語の特殊文字(å, ä, öなど)に特化して最適化されています。
高精度認識
テストセットで3.2の文字誤り率(CER)を達成し、優れた性能を発揮します。

モデル能力

手書きテキスト認識
歴史文書の転写
表データの抽出

使用事例

アーカイブのデジタル化
歴史的手書き原稿の転写
アーカイブに保管されている歴史的な手書き文書を検索可能なデジタルテキストに変換します。
CER 3.2(テストセット94,900行のテキスト)
個人用途
手書きメモの転写
個人の手書きメモを電子テキスト形式に変換します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase