M

Multicentury Htr Model

由Kansallisarkisto開發
基於Transformer的手寫文本識別模型,專為瑞典語和芬蘭語設計,適用於歷史文檔數字化。
下載量 39
發布時間 : 10/7/2024

模型概述

該模型是基於microsoft/trocr-large-handwritten微調的版本,專注於識別17至20世紀的手寫文本,支持文檔數字化和手寫筆記轉寫。

模型特點

多世紀手寫支持
訓練數據涵蓋17至20世紀的手寫樣本,適應多樣化的書寫風格。
北歐語言優化
專門針對芬蘭語和瑞典語的特殊字符(如å, ä, ö)進行優化。
高精度識別
在測試集上達到3.2的字符錯誤率(CER),表現優異。

模型能力

手寫文本識別
歷史文檔轉錄
表格數據提取

使用案例

檔案數字化
歷史手稿轉錄
將檔案館中的歷史手寫文檔轉換為可搜索的數字化文本。
CER 3.2(測試集94,900行文本)
個人應用
手寫筆記轉寫
將個人手寫筆記轉換為電子文本格式。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase