trocr-medieval-cursiva開源模型 - 免費識別多語種中世紀手寫文本

首頁

Trocr Medieval Cursiva

由medieval-data開發

這是一個基於TrOCR的中世紀草書體識別模型，專門用於識別拉丁語、法語、意大利語、西班牙語和加泰羅尼亞語的中世紀手寫文本。

文字識別

Transformers

支持多種語言開源協議:MIT #中世紀手稿識別 #多語言OCR #草書體解析

下載量 18

發布時間 : 7/3/2024

模型概述

該模型基於microsoft/trocr-base-handwritten模型，經過針對中世紀卡羅琳體和草書體的微調訓練，能夠識別多種中世紀拉丁語系的手寫文本。

模型特點

多語言支持

支持識別多種中世紀拉丁語系語言的手寫文本

專門針對草書體優化

經過專門微調以識別中世紀草書體手寫風格

基於TrOCR架構

利用Transformer架構的強大性能進行光學字符識別

模型能力

中世紀手寫文本識別

多語言OCR

圖像轉文本

使用案例

歷史文獻數字化

中世紀手稿轉錄

將中世紀手寫文獻轉換為可編輯的電子文本

初步檢查表明需要進一步微調以提高準確率

學術研究

歷史語言學研究

輔助研究中世紀語言的演變和使用

🚀 中世紀草書TrOCR模型

這是一個用於中世紀草書的TrOCR模型，能夠將中世紀草書寫的圖像轉換為文本。該模型基於預訓練模型微調而來，為中世紀手寫文字識別提供了有效的解決方案。

🚀 快速開始

模型簡介

這是一個用於中世紀草書的TrOCR模型。基礎模型為 microsoft/trocr-base-handwritten。該模型先針對卡羅琳字體進行微調：medieval-data/trocr-medieval-latin-caroline，之後再從保存的檢查點進一步針對草書進行微調。

訓練使用的數據集為 CATMuS。

該模型尚未經過正式測試，初步檢查表明還需要進一步微調。

微調使用的是此倉庫中的 finetune.py 文件。

模型信息

屬性	詳情
模型類型	用於中世紀草書的TrOCR模型
訓練數據	CATMuS

支持語言

拉丁語
法語
意大利語
西班牙語
加泰羅尼亞語

示例展示

💻 使用示例

基礎用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# 從IAM數據庫加載圖像
# 原代碼此處有誤，應為 url = "https://huggingface.co/medieval-data/trocr-medieval-cursiva/resolve/main/images/cursiva-1.png"
url = "https://huggingface.co/medieval-data/trocr-medieval-cursiva/resolve/main/images/cursiva-1.png"
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('medieval-data/trocr-medieval-cursiva')
model = VisionEncoderDecoderModel.from_pretrained('medieval-data/trocr-medieval-cursiva')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 詳細文檔

BibTeX引用和引用信息

TrOCR論文

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

CATMuS論文

@unpublished{clerice:hal-04453952,
  TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}},
  AUTHOR = {Cl{\'e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{\'e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{\`e}s and Manton, Avery and Gabay, Simon and O'Connor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin},
  URL = {https://inria.hal.science/hal-04453952},
  NOTE = {working paper or preprint},
  YEAR = {2024},
  MONTH = Feb,
  KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition},
  PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf},
  HAL_ID = {hal-04453952},
  HAL_VERSION = {v1},
}