🚀 多世紀手寫文本識別模型
本模型是一個專門用於識別手寫文本的模型,基於Transformer架構進行微調。它在17世紀到20世紀的各種數據集上進行了訓練,可應用於文檔數字化、表單識別等涉及手寫文本提取的任務。
🚀 快速開始
你可以直接使用Hugging Face的pipeline函數,或者手動加載處理器和模型來使用本模型。
基礎用法
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
processor = TrOCRProcessor.from_pretrained("Kansallisarkisto/multicentury-htr-model/processor")
model = VisionEncoderDecoderModel.from_pretrained("Kansallisarkisto/multicentury-htr-model")
image = Image.open("path_to_image.png")
pixel_values = processor(image, return_tensors="pt").pixel_values
generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
✨ 主要特性
- 多語言支持:支持瑞典語和芬蘭語的手寫文本識別。
- 廣泛的訓練數據:在17世紀到20世紀的各種數據集上進行訓練,涵蓋了多種手寫風格和文本樣本。
- 基於Transformer架構:採用Transformer架構(TrOCR),具有編碼器 - 解碼器結構,能夠有效處理手寫文本圖像並生成對應的文本輸出。
📦 安裝指南
文檔未提及具體安裝步驟,可參考Hugging Face相關文檔進行模型和依賴庫的安裝。
📚 詳細文檔
模型描述
- 模型名稱:multicentury-htr-model
- 模型類型:基於Transformer的OCR(TrOCR)
- 基礎模型:microsoft/trocr-large-handwritten
- 用途:手寫文本識別
- 支持語言:瑞典語、芬蘭語
- 許可證:Apache 2.0
本模型是microsoft/trocr-large-handwritten模型的微調版本,專門用於識別手寫文本。它在17世紀到20世紀的各種數據集上進行了訓練,可應用於文檔數字化、表單識別或任何涉及手寫文本提取的任務。
模型架構
模型基於Transformer架構(TrOCR),採用編碼器 - 解碼器結構:
- 編碼器處理手寫文本圖像。
- 解碼器生成對應的文本輸出。
預期用途
本模型專為手寫文本識別而設計,適用於以下場景:
- 文檔數字化(例如,檔案工作、歷史手稿)
- 手寫筆記轉錄
訓練數據
訓練數據集包含超過760,000個手寫文本行樣本,涵蓋了各種手寫風格和文本樣本。
評估
模型在測試數據集上進行了評估,關鍵指標如下:
屬性 |
詳情 |
字符錯誤率(CER) |
3.2 |
測試數據集描述 |
大小約為94,900個文本行 |
侷限性和偏差
模型主要在使用基本拉丁字符(A - Z,a - z)幷包含北歐特殊字符(å,ä,ö)的手寫文本上進行訓練。它未在非拉丁字母(如漢字、西裡爾字母或其他書寫系統,如阿拉伯語或希伯來語)上進行訓練。模型可能無法很好地泛化到芬蘭語、瑞典語或英語以外的其他語言。
未來工作
本模型的潛在改進包括:
- 擴展訓練數據:納入更多不同的手寫風格和語言。
- 針對特定領域進行優化:在特定領域的手寫文本上對模型進行微調。
引用
如果您在工作中使用此模型,請按以下方式引用:
@misc{multicentury_htr_model_2024,
author = {Kansallisarkisto},
title = {Multicentury HTR Model: Handwritten Text Recognition},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Kansallisarkisto/multicentury-htr-model/}},
}
模型卡片作者
- 作者:Kansallisarkisto
- 聯繫信息:riikka.marttila@kansallisarkisto.fi, ilkka.jokipii@kansallisarkisto.fi
📄 許可證
本模型使用Apache 2.0許可證。