🚀 多世纪手写文本识别模型
本模型是一个专门用于识别手写文本的模型,基于Transformer架构进行微调。它在17世纪到20世纪的各种数据集上进行了训练,可应用于文档数字化、表单识别等涉及手写文本提取的任务。
🚀 快速开始
你可以直接使用Hugging Face的pipeline函数,或者手动加载处理器和模型来使用本模型。
基础用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")
image = Image.open("path_to_image.png")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
✨ 主要特性
- 多语言支持:支持瑞典语和芬兰语的手写文本识别。
- 广泛的训练数据:在17世纪到20世纪的各种数据集上进行训练,涵盖了多种手写风格和文本样本。
- 基于Transformer架构:采用Transformer架构(TrOCR),具有编码器 - 解码器结构,能够有效处理手写文本图像并生成对应的文本输出。
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face相关文档进行模型和依赖库的安装。
📚 详细文档
模型描述
- 模型名称:multicentury-htr-model
- 模型类型:基于Transformer的OCR(TrOCR)
- 基础模型:microsoft/trocr-large-handwritten
- 用途:手写文本识别
- 支持语言:瑞典语、芬兰语
- 许可证:Apache 2.0
本模型是microsoft/trocr-large-handwritten模型的微调版本,专门用于识别手写文本。它在17世纪到20世纪的各种数据集上进行了训练,可应用于文档数字化、表单识别或任何涉及手写文本提取的任务。
模型架构
模型基于Transformer架构(TrOCR),采用编码器 - 解码器结构:
- 编码器处理手写文本图像。
- 解码器生成对应的文本输出。
预期用途
本模型专为手写文本识别而设计,适用于以下场景:
- 文档数字化(例如,档案工作、历史手稿)
- 手写笔记转录
训练数据
训练数据集包含超过760,000个手写文本行样本,涵盖了各种手写风格和文本样本。
评估
模型在测试数据集上进行了评估,关键指标如下:
属性 |
详情 |
字符错误率(CER) |
3.2 |
测试数据集描述 |
大小约为94,900个文本行 |
局限性和偏差
模型主要在使用基本拉丁字符(A - Z,a - z)并包含北欧特殊字符(å,ä,ö)的手写文本上进行训练。它未在非拉丁字母(如汉字、西里尔字母或其他书写系统,如阿拉伯语或希伯来语)上进行训练。模型可能无法很好地泛化到芬兰语、瑞典语或英语以外的其他语言。
未来工作
本模型的潜在改进包括:
- 扩展训练数据:纳入更多不同的手写风格和语言。
- 针对特定领域进行优化:在特定领域的手写文本上对模型进行微调。
引用
如果您在工作中使用此模型,请按以下方式引用:
@misc{multicentury_htr_model_2024,
author = {Kansallisarkisto},
title = {Multicentury HTR Model: Handwritten Text Recognition},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}
模型卡片作者
- 作者:Kansallisarkisto
- 联系信息:riikka.marttila@kansallisarkisto.fi, ilkka.jokipii@kansallisarkisto.fi
📄 许可证
本模型使用Apache 2.0许可证。