tablecell-htr开源模型 - 免费识别表格单元格图像手写文本，适用芬兰旧记录

首页

Tablecell Htr

由 Kansallisarkisto 开发

该模型用于从表格单元格的文本行图像中识别手写文本，特别适用于20世纪30年代芬兰死亡记录和人口普查记录中的手写文本识别。

文字识别

Safetensors

开源协议:MIT #表格手写识别 #历史文档处理 #芬兰语OCR

下载量 39

发布时间 : 9/12/2024

模型简介

通过对芬兰国家档案馆的多世纪手写文本识别模型和微软的TrOCR模型进行微调训练而成，专门用于识别特定类型表格单元格中的手写文本。

模型特点

特定领域优化

专门针对历史文档表格单元格中的手写文本进行优化，识别精度高

基于TrOCR架构

利用微软TrOCR模型的强大能力，结合领域特定数据进行微调

GPU加速支持

支持GPU加速推理，提高处理速度

模型能力

手写文本识别

表格单元格内容提取

历史文档数字化

使用案例

档案数字化

历史人口记录转录

将20世纪30年代芬兰人口普查记录中的手写内容转换为可搜索的文本

验证CER为0.107，WER为0.237

死亡记录数字化

自动识别和转录历史死亡记录表格中的手写信息

🚀 表格单元格图像手写文本识别模型

本模型可实现从文本行图像中进行手写文本识别。它通过微调国家档案馆的多世纪手写文本识别模型和微软的TrOCR模型，使用20世纪30年代芬兰死亡记录和人口普查记录表格中的文本行图像进行训练，为表格单元格图像的手写文本识别提供了有效的解决方案。

🚀 快速开始

本模型可按以下代码预测图像的文本内容。若有可用的GPU，建议在推理时使用。

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import torch

# Use GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Model location in Huggingface Hub
model_checkpoint = "Kansallisarkisto/tablecell-htr"
# Path to textline image
line_image_path = "/path/to/textline_image.jpg"

# Initialize processor and model
processor = TrOCRProcessor.from_pretrained(model_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

# Open image file and extract pixel values
image = Image.open(line_image_path).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

# Use the model to generate predictions 
generated_ids = model.generate(pixel_values.to(device))
# Use the processor to decode ids to text
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)

从HuggingFace Hub下载的模型会本地保存到 ~/.cache/huggingface/hub/。

✨ 主要特性

该模型经过特定类型表格单元格数据的训练，能有效识别其中的手写文本。
基于微调的国家档案馆多世纪手写文本识别模型和微软TrOCR模型，具有较好的识别能力。

💻 使用示例

基础用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import torch

# Use GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Model location in Huggingface Hub
model_checkpoint = "Kansallisarkisto/tablecell-htr"
# Path to textline image
line_image_path = "/path/to/textline_image.jpg"

# Initialize processor and model
processor = TrOCRProcessor.from_pretrained(model_checkpoint)
model = VisionEncoderDecoderModel.from_pretrained(model_checkpoint).to(device)

# Open image file and extract pixel values
image = Image.open(line_image_path).convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values

# Use the model to generate predictions 
generated_ids = model.generate(pixel_values.to(device))
# Use the processor to decode ids to text
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)