trocr-medieval-latin-caroline開源模型 - 精準識別中世紀拉丁語加洛林體文字

首頁

Trocr Medieval Latin Caroline

由medieval-data開發

這是一個針對中世紀拉丁語（特別是加洛林體）的TROcr模型，基於microsoft/trocr-base-handwritten微調而來

文字識別

Transformers

其他開源協議:MIT #中世紀拉丁語OCR #加洛林體識別 #手寫文本轉錄

下載量 48

發布時間 : 7/3/2024

模型概述

用於識別中世紀拉丁語加洛林體手寫文字的OCR模型

模型特點

中世紀拉丁語支持

專門針對中世紀拉丁語加洛林體手寫文字優化

基於TrOCR架構

基於微軟TrOCR基礎模型微調，具備良好的手寫識別能力

模型能力

手寫文字識別

中世紀文獻數字化

拉丁語文本提取

使用案例

歷史文獻研究

中世紀手稿轉錄

將中世紀拉丁語手稿轉換為可編輯文本

數字人文

歷史檔案數字化

幫助歷史檔案機構實現手寫文獻的數字化處理

🚀 中世紀拉丁卡羅琳字體TROcr模型

這是一個用於中世紀拉丁語，特別是卡羅琳字體的TROcr模型。該模型能將中世紀拉丁語的卡羅琳字體圖像轉換為文本，為研究中世紀文獻提供了便利。

🚀 快速開始

本模型是基於microsoft/trocr-base-handwritten基礎模型，利用CATMuS數據集中的示例進行微調得到的。不過該模型尚未經過正式測試，初步檢查表明還需要進一步微調。微調使用的是本倉庫中的finetune.py文件。

✨ 主要特性

針對性強：專門針對中世紀拉丁語的卡羅琳字體進行優化。
基於預訓練模型：以microsoft/trocr-base-handwritten為基礎，提升訓練效率。

📦 安裝

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
https://huggingface.co/medieval-data/trocr-medieval-latin-caroline/resolve/main/images/heldout1.png
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('medieval-data/trocr-medieval-latin-caroline')
model = VisionEncoderDecoderModel.from_pretrained('medieval-data/trocr-medieval-latin-caroline')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

高級用法

文檔未提及高級用法相關代碼，暫不展示。

📚 詳細文檔

文檔未提及詳細文檔內容，暫不展示。

🔧 技術細節

文檔未提及技術實現細節，暫不展示。

📄 許可證

本項目採用MIT許可證。

📖 引用信息

TrOCR論文

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

CATMuS論文

@unpublished{clerice:hal-04453952,
  TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}},
  AUTHOR = {Cl{\'e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{\'e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{\`e}s and Manton, Avery and Gabay, Simon and O'Connor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin},
  URL = {https://inria.hal.science/hal-04453952},
  NOTE = {working paper or preprint},
  YEAR = {2024},
  MONTH = Feb,
  KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition},
  PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf},
  HAL_ID = {hal-04453952},
  HAL_VERSION = {v1},
}