multicentury-htr-model开源手写文本识别模型 - 助力瑞典语、芬兰语历史文档数字化

首页

Multicentury Htr Model

由 Kansallisarkisto 开发

基于Transformer的手写文本识别模型，专为瑞典语和芬兰语设计，适用于历史文档数字化。

文字识别

PyTorch

其他开源协议:Apache-2.0 #手写文本识别 #多世纪手写体 #北欧语言OCR

下载量 39

发布时间 : 10/7/2024

模型简介

该模型是基于microsoft/trocr-large-handwritten微调的版本，专注于识别17至20世纪的手写文本，支持文档数字化和手写笔记转写。

模型特点

多世纪手写支持

训练数据涵盖17至20世纪的手写样本，适应多样化的书写风格。

北欧语言优化

专门针对芬兰语和瑞典语的特殊字符（如å, ä, ö）进行优化。

高精度识别

在测试集上达到3.2的字符错误率（CER），表现优异。

模型能力

手写文本识别

历史文档转录

表格数据提取

使用案例

档案数字化

历史手稿转录

将档案馆中的历史手写文档转换为可搜索的数字化文本。

CER 3.2（测试集94,900行文本）

个人应用

手写笔记转写

将个人手写笔记转换为电子文本格式。

🚀 多世纪手写文本识别模型

本模型是一个专门用于识别手写文本的模型，基于Transformer架构进行微调。它在17世纪到20世纪的各种数据集上进行了训练，可应用于文档数字化、表单识别等涉及手写文本提取的任务。

🚀 快速开始

你可以直接使用Hugging Face的pipeline函数，或者手动加载处理器和模型来使用本模型。

基础用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image

# 加载模型和处理器
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")

# 打开手写文本图像
image = Image.open("path_to_image.png")

# 预处理并进行预测
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(generated_text)

✨ 主要特性

多语言支持：支持瑞典语和芬兰语的手写文本识别。
广泛的训练数据：在17世纪到20世纪的各种数据集上进行训练，涵盖了多种手写风格和文本样本。
基于Transformer架构：采用Transformer架构（TrOCR），具有编码器 - 解码器结构，能够有效处理手写文本图像并生成对应的文本输出。

📦 安装指南

文档未提及具体安装步骤，可参考Hugging Face相关文档进行模型和依赖库的安装。

📚 详细文档

模型描述

模型名称：multicentury-htr-model
模型类型：基于Transformer的OCR（TrOCR）
基础模型：microsoft/trocr-large-handwritten
用途：手写文本识别
支持语言：瑞典语、芬兰语
许可证：Apache 2.0

本模型是microsoft/trocr-large-handwritten模型的微调版本，专门用于识别手写文本。它在17世纪到20世纪的各种数据集上进行了训练，可应用于文档数字化、表单识别或任何涉及手写文本提取的任务。

模型架构

模型基于Transformer架构（TrOCR），采用编码器 - 解码器结构：

编码器处理手写文本图像。
解码器生成对应的文本输出。

预期用途

本模型专为手写文本识别而设计，适用于以下场景：

文档数字化（例如，档案工作、历史手稿）
手写笔记转录

训练数据

训练数据集包含超过760,000个手写文本行样本，涵盖了各种手写风格和文本样本。

评估

模型在测试数据集上进行了评估，关键指标如下：

属性	详情
字符错误率（CER）	3.2
测试数据集描述	大小约为94,900个文本行

局限性和偏差

模型主要在使用基本拉丁字符（A - Z，a - z）并包含北欧特殊字符（å，ä，ö）的手写文本上进行训练。它未在非拉丁字母（如汉字、西里尔字母或其他书写系统，如阿拉伯语或希伯来语）上进行训练。模型可能无法很好地泛化到芬兰语、瑞典语或英语以外的其他语言。

未来工作

本模型的潜在改进包括：

扩展训练数据：纳入更多不同的手写风格和语言。
针对特定领域进行优化：在特定领域的手写文本上对模型进行微调。

引用

如果您在工作中使用此模型，请按以下方式引用：

@misc{multicentury_htr_model_2024,
  author = {Kansallisarkisto},
  title = {Multicentury HTR Model: Handwritten Text Recognition},
  year = {2024},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}