trocr-base-printedオープンソースOCRモデル - 無料で使いやすく、単行文本文像を正確に認識

ホーム

Trocr Base Printed

microsoftによって開発

TrOCRはTransformerベースの光学文字認識モデルで、単一行テキスト画像認識のために設計されており、エンコーダー-デコーダーアーキテクチャを採用しています

文字認識

Transformers

#印刷OCR #Transformerアーキテクチャ #単一行テキスト認識

ダウンロード数 184.84k

リリース時間 : 3/2/2022

モデル概要

このモデルは画像TransformerエンコーダーとテキストTransformerデコーダーを組み合わせており、印刷テキストの光学文字認識タスクに適しています。特にSROIEデータセットでファインチューニングされています

モデル特徴

Transformerアーキテクチャ

先進的なTransformerアーキテクチャを使用して画像とテキストシーケンスを処理し、エンドツーエンドOCRを実現します

事前学習済み重みの初期化

画像エンコーダーにはBEiTの事前学習済み重み、テキストデコーダーにはRoBERTaの事前学習済み重みを使用しています

印刷テキスト最適化

印刷テキスト認識に特化して最適化されており、SROIEデータセットで良好な性能を示します

モデル能力

単一行テキスト画像認識

印刷文字認識

エンドツーエンドOCR処理

使用事例

文書デジタル化

領収書認識

スキャンした領収書からテキスト情報を自動認識します

SROIEデータセットで良好な性能を示します

請求書処理

請求書画像から主要なフィールド情報を抽出します

構造化文書処理に適しています

オフィス自動化

表認識

印刷された表を編集可能なテキストに変換します

フォーマットが整った文書の処理に適しています

🚀 TrOCR (ベースサイズのモデル、SROIEでファインチューニング済み)

TrOCRモデルは、SROIEデータセットでファインチューニングされています。このモデルは、Liらによる論文TrOCR: Transformer-based Optical Character Recognition with Pre-trained Modelsで紹介され、このリポジトリで最初に公開されました。

免責事項: TrOCRを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

TrOCRモデルは、画像用のTransformerをエンコーダー、テキスト用のTransformerをデコーダーとするエンコーダー・デコーダーモデルです。画像エンコーダーはBEiTの重みから初期化され、テキストデコーダーはRoBERTaの重みから初期化されます。

✨ 主な機能

単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。
画像を固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力し、線形埋め込みを行います。
Transformerエンコーダーのレイヤーにシーケンスを入力する前に、絶対位置埋め込みを追加します。
Transformerテキストデコーダーが自己回帰的にトークンを生成します。

📚 ドキュメント

モデルの説明

TrOCRモデルはエンコーダー・デコーダーモデルで、エンコーダーとして画像Transformer、デコーダーとしてテキストTransformerを使用しています。画像エンコーダーはBEiTの重みから初期化され、テキストデコーダーはRoBERTaの重みから初期化されます。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、Transformerエンコーダーのレイヤーにシーケンスを入力する前に、絶対位置埋め込みが追加されます。その後、Transformerテキストデコーダーが自己回帰的にトークンを生成します。

想定される用途と制限

この生モデルは、単一行のテキスト画像に対する光学文字認識（OCR）に使用できます。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルをPyTorchで使用する方法です。

基本的な使用法

from transformers import TrOCRProcessor, VisionEncoderDecoderModel
from PIL import Image
import requests

# load image from the IAM database (actually this model is meant to be used on printed text)
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

processor = TrOCRProcessor.from_pretrained('microsoft/trocr-base-printed')
model = VisionEncoderDecoderModel.from_pretrained('microsoft/trocr-base-printed')
pixel_values = processor(images=image, return_tensors="pt").pixel_values

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

BibTeXエントリと引用情報

@misc{li2021trocr,
      title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models}, 
      author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
      year={2021},
      eprint={2109.10282},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}