Trocr-base-stage1開源OCR模型 - 免費識別單行文本圖像文字

首頁

Trocr Base Stage1

由microsoft開發

TrOCR是基於Transformer的預訓練光學字符識別模型，由微軟團隊開發，適用於單行文本圖像的OCR任務。

圖像生成文本

Transformers

#單行文本OCR #Transformer架構 #圖像轉文本

下載量 18.74k

發布時間 : 3/2/2022

模型概述

TrOCR是一個編碼器-解碼器模型，結合了圖像Transformer編碼器和文本Transformer解碼器，專為光學字符識別任務設計。

模型特點

基於Transformer架構

採用先進的Transformer架構，結合圖像和文本處理能力

預訓練模型

提供預訓練權重，便於下游任務微調

單行文本識別

專門針對單行文本圖像進行優化

模型能力

圖像轉文本

光學字符識別

單行文本識別

使用案例

文檔數字化

掃描文檔識別

將掃描文檔中的單行文本轉換為可編輯文本

圖像處理

圖像中的文本提取

從包含文本的圖像中提取文字內容

🚀 TrOCR（基礎大小模型，僅預訓練）

TrOCR是一個僅經過預訓練的模型。它由Li等人在論文 TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 中提出，並首次在此倉庫中發佈。

免責聲明：發佈TrOCR的團隊並未為此模型撰寫模型卡片，因此本模型卡片由Hugging Face團隊撰寫。

✨ 主要特性

TrOCR模型是一個編碼器 - 解碼器模型，由一個圖像Transformer作為編碼器，一個文本Transformer作為解碼器組成。圖像編碼器的權重初始化為BEiT的權重，而文本解碼器的權重初始化為RoBERTa的權重。

圖像以固定大小的塊序列（分辨率為16x16）的形式呈現給模型，這些塊經過線性嵌入。在將序列輸入到Transformer編碼器的各層之前，還會添加絕對位置嵌入。接下來，Transformer文本解碼器自迴歸地生成標記。

🚀 快速開始

你可以使用這個原始模型對單行文本圖像進行光學字符識別（OCR）。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

💻 使用示例

基礎用法

以下是如何在PyTorch中使用此模型的示例：

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-base-stage1')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-base-stage1')

# training
pixel_values = processor(image, return_tensors="pt").pixel_values  # Batch size 1
decoder_input_ids = torch.tensor([[model.config.decoder.decoder_start_token_id]])
outputs = model(pixel_values=pixel_values, decoder_input_ids=decoder_input_ids)

📚 詳細文檔

BibTeX引用和引用信息

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}