trocr-large-printedオープンソースOCRモデル - 無料でデプロイし、一行の印刷体テキストを高精度で認識する

ホーム

Trocr Large Printed

microsoftによって開発

Transformerベースの光学文字認識モデルで、単行の印刷体テキスト認識に適しています。

文字認識

Transformers

#印刷体OCR #Transformerアーキテクチャ #単行文書認識

ダウンロード数 295.59k

リリース時間 : 3/2/2022

モデル概要

TrOCRはエンコーダ - デコーダアーキテクチャを採用し、画像TransformerとテキストTransformerを組み合わせて、光学文字認識（OCR）タスクに特化しています。このバージョンは印刷体テキストに対して最適化されています。

モデル特徴

ハイブリッドアーキテクチャ設計

ビジュアルTransformerエンコーダとテキストTransformerデコーダを組み合わせて、エンドツーエンドのOCRを実現します。

事前学習済みの重みを初期化

画像エンコーダはBEiTの重みを継承し、テキストデコーダはRoBERTaの重みを継承して、モデルの性能を向上させます。

印刷体テキストの最適化

印刷体テキスト認識に特化して微調整され、SROIEデータセットで優れた性能を発揮します。

モデル能力

印刷体テキスト認識

単行文書画像処理

エンドツーエンドの文字認識

使用事例

文書のデジタル化

レシート認識

スキャンしたレシートのテキスト情報を自動認識します。

SROIEデータセットで良好な結果を示します。

表処理

表文書の文字内容を抽出します。

産業応用

製品ラベル認識

製品ラベルの印刷文字を自動読み取ります。

🚀 TrOCR (大型モデル、SROIEでファインチューニング済み)

TrOCRモデルは、SROIEデータセットでファインチューニングされています。このモデルは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで紹介され、最初はthis repositoryで公開されました。

免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

TrOCRモデルを使用することで、光学文字認識（OCR）を行うことができます。以下のセクションでは、モデルの詳細、使用方法、引用情報などを説明します。

✨ 主な機能

TrOCRモデルは、画像Transformerをエンコーダー、テキストTransformerをデコーダーとするエンコーダー - デコーダーモデルです。画像エンコーダーはBEiTの重みから初期化され、テキストデコーダーはRoBERTaの重みから初期化されます。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダー - デコーダーモデルで、エンコーダーとして画像Transformer、デコーダーとしてテキストTransformerを使用しています。画像エンコーダーはBEiTの重みから初期化され、テキストデコーダーはRoBERTaの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。シーケンスをTransformerエンコーダーのレイヤーに入力する前に、絶対位置埋め込みも追加されます。次に、Transformerテキストデコーダーが自己回帰的にトークンを生成します。

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

ここでは、このモデルをPyTorchで使用する方法を示します。

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database (actually this model is meant to be used on printed text)
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-large-printed')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-large-printed')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}