trocr-small-printedオープンソースOCRモデル - 単行文本文字画像認識タスクを無料でサポート

ホーム

Trocr Small Printed

microsoftによって開発

TrOCRはTransformerベースの光学文字認識モデルで、単行文画像のOCRタスクに適しています。

文字認識

Transformers

#印刷体OCR #Transformerアーキテクチャ #単行文認識

ダウンロード数 20.88k

リリース時間 : 3/2/2022

モデル概要

TrOCRモデルはエンコーダ - デコーダモデルで、画像Transformerをエンコーダ、テキストTransformerをデコーダとして構成されています。このモデルはSROIEデータセットで微調整され、印刷体テキスト認識に特化しています。

モデル特徴

Transformerアーキテクチャベース

Transformerエンコーダ - デコーダ構造を採用し、画像とテキスト処理能力を結合しています

印刷体テキスト最適化

印刷体テキストに特化して微調整され、認識精度が向上します

エンドツーエンドOCR

画像から直接テキストへのエンドツーエンド認識で、複雑な前処理ステップが不要です

モデル能力

印刷体テキスト認識

単行文OCR

画像からテキストへの変換

使用事例

文書デジタル化

レシート認識

レシート上の印刷体テキスト情報を自動認識します

高精度なテキスト抽出

請求書処理

請求書画像からキー情報を抽出します

データ処理効率の向上

自動化オフィス

表認識

印刷体表の文字内容を認識します

データ入力プロセスの簡素化

🚀 TrOCR (小型モデル、SROIEでファインチューニング済み)

TrOCRモデルは、SROIEデータセットでファインチューニングされています。このモデルは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

TrOCRモデルは、光学文字認識（OCR）に使用できます。以下に、このモデルの概要と使用方法を説明します。

✨ 主な機能

画像Transformerをエンコーダ、テキストTransformerをデコーダとするエンコーダ・デコーダモデルです。
画像エンコーダはDeiTの重みから、テキストデコーダはUniLMの重みから初期化されています。
単一のテキスト行画像に対する光学文字認識（OCR）に使用できます。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダ・デコーダモデルで、エンコーダとして画像Transformer、デコーダとしてテキストTransformerで構成されています。画像エンコーダはDeiTの重みから初期化され、テキストデコーダはUniLMの重みから初期化されています。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、シーケンスをTransformerエンコーダのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、Transformerテキストデコーダが自己回帰的にトークンを生成します。

想定される用途と制限

このモデルは、単一のテキスト行画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database (actually this model is meant to be used on printed text)
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-small-printed')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-small-printed')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}